From 2dfa90bc33dc3e13630552af845a6c8ee61a7654 Mon Sep 17 00:00:00 2001 From: huang <1724659546@qq.com> Date: Tue, 2 Dec 2025 13:02:27 +0800 Subject: [PATCH] =?UTF-8?q?ota=E5=8D=87=E7=BA=A7=E6=96=B9=E6=A1=88?= =?UTF-8?q?=E4=BF=AE=E6=94=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../ota_upgrade_solution.md | 213 +++++++++++++++--- 1 file changed, 182 insertions(+), 31 deletions(-) diff --git a/design/ota-upgrade-and-log-monitoring/ota_upgrade_solution.md b/design/ota-upgrade-and-log-monitoring/ota_upgrade_solution.md index 12fbfc0..9874633 100644 --- a/design/ota-upgrade-and-log-monitoring/ota_upgrade_solution.md +++ b/design/ota-upgrade-and-log-monitoring/ota_upgrade_solution.md @@ -39,7 +39,7 @@ * 在设备上的目标路径 (`path`) * MD5 校验和 (`md5`) * 文件大小 (`size`) - * **排除配置文件**: 平台会识别配置文件(例如通过文件名约定),并**排除**这些文件,不将其包含在清单文件中,也不通过 OTA 传输。 + * **排除配置文件**: 平台会识别配置文件(例如通过文件名约定,如 `/config/` 目录下的所有文件),并**排除**这些文件,不将其包含在清单文件中,也不通过 OTA 传输。 4. **生成清单文件**: 平台根据上述信息,生成一个 JSON 格式的清单文件。 5. **数字签名 (未来扩展)**: 平台使用其私钥对**清单文件**的内容进行数字签名,并将签名添加到清单文件中。此步骤目前可跳过,但为未来安全性预留。 @@ -86,6 +86,7 @@ message PrepareUpdateReq { string version = 1; // 新固件版本号 string task_id = 2; // 升级任务唯一ID + string manifest_md5 = 3; // 清单文件的 MD5 校验和,用于设备初步校验清单文件完整性 } // RequestFile: 设备向平台请求特定文件 (包括清单文件和固件文件) @@ -103,7 +104,6 @@ message FileResponse { string filename = 2; // 文件名 (例如 "manifest.json" 或 "main.py") string filepath = 3; // 设备上的目标路径 (例如 "/manifest.json" 或 "/main.py") bytes content = 4; // 文件的完整内容 - // MD5 字段已从此处移除,设备将根据清单文件中的 MD5 进行统一校验 } // UpdateStatusReport: 设备向平台报告升级状态 @@ -114,12 +114,12 @@ message UpdateStatusReport { enum Status { UNKNOWN = 0; SUCCESS = 1; // 升级成功,新固件已运行 - FAILED_PREPARE = 2; // 准备阶段失败 (如清空分区失败) + FAILED_PREPARE = 2; // 准备阶段失败 (如清空分区失败,或文件系统错误) FAILED_FILE_REQUEST = 3; // 文件请求失败 (如平台未找到文件) - FAILED_FILE_RECEIVE = 4; // 文件接收失败 (如LoRa传输层错误) + FAILED_FILE_RECEIVE = 4; // 文件接收失败 (如LoRa传输层错误,或文件写入失败) FAILED_FILE_VERIFY = 5; // 文件MD5校验失败 (单个文件校验失败) - FAILED_MANIFEST_VERIFY = 6; // 清单文件验证失败 (如签名或格式错误) - FAILED_ACTIVATE = 7; // 激活失败 (如设置启动分区失败) + FAILED_MANIFEST_VERIFY = 6; // 清单文件验证失败 (如MD5不匹配,或格式错误) + FAILED_ACTIVATE = 7; // 激活失败 (如设置启动分区失败,或新固件自检失败) ROLLED_BACK = 8; // 新固件启动失败,已回滚到旧版本 IN_PROGRESS = 9; // 升级进行中 (可用于报告阶段性进度) } @@ -136,7 +136,7 @@ message UpdateStatusReport { 1. 接收开发者提供的 MicroPython 项目压缩包。 2. 解压压缩包。 3. 遍历解压后的文件,计算每个文件的 MD5、大小,并确定目标路径。 -4. **排除配置文件**: 平台会识别配置文件(例如通过文件名约定),并**排除**这些文件,不将其包含在清单文件中,也不通过 OTA 传输。 +4. **排除配置文件**: 平台会识别配置文件(例如通过文件名约定,如 `/config/` 目录下的所有文件),并**排除**这些文件,不将其包含在清单文件中,也不通过 OTA 传输。 5. 生成清单文件 (Manifest File)。**注意:清单文件本身也应作为 OTA 的一部分,其元数据(文件名、路径、MD5、大小)应包含在清单文件自身的 `files` 列表中。Manifest文件生成后将被放在解压后的文件夹的根目录下, 方便后续主控设备获取** 6. (未来扩展)对清单文件进行数字签名。 7. 将清单文件和所有固件文件存储在平台内部,等待分发。 @@ -144,23 +144,26 @@ message UpdateStatusReport { ### 4.2. 发送“准备更新”指令 -1. 平台向目标区域主控发送 `PrepareUpdateReq` 消息。 -2. 此消息通知设备即将进行 OTA 升级,并要求设备清空其非活动 OTA 分区。主控收到此指令并开始索要文件即表示准备完毕开始更新,平台记录此状态即可。 -3. 更新任务记录: 平台根据设备开始索要清单文件的动作,更新 OTA 任务记录的状态。 +1. 平台向目标区域主控发送 `PrepareUpdateReq` 消息,其中包含清单文件的 MD5 校验和。 +2. 此消息通知设备即将进行 OTA 升级,并要求设备清空其非活动 OTA 分区。 +3. **确认指令送达**: 平台发送 `PrepareUpdateReq` 后,启动一个定时器。如果在预设的超时时间内(例如 30 秒)未收到设备请求清单文件的 `RequestFile` 消息,平台可以重试发送 `PrepareUpdateReq`,重试次数可配置。 +4. **更新任务记录**: 平台根据设备开始索要清单文件的动作,更新 OTA 任务记录的状态为“进行中”。 ### 4.3. 响应设备文件请求 (统一处理清单文件和固件文件) 1. 平台接收区域主控发送的 `RequestFile` 消息。 2. 平台根据 `task_id`、`filename` 和 `filepath` 在内部存储中找到对应的文件内容。 3. 平台构建 `FileResponse` 消息,将文件的完整内容、文件名和路径放入其中。 -4. 平台通过 LoRa 传输层发送 `FileResponse` 消息。设备自己发现接收失败或超时会自行重发请求,多次失败设备会直接上报 `UpdateStatusReport` 结束更新。如果需要控制重试次数,可在平台发送的准备更新消息中带上重试次数。 +4. 平台通过 LoRa 传输层发送 `FileResponse` 消息。设备自己发现接收失败或超时会自行重发请求,多次失败设备会直接上报 `UpdateStatusReport` 结束更新。 5. 更新任务记录: 平台根据设备请求文件的动作,更新 OTA 任务记录中该文件的传输状态。 ### 4.4. 处理设备状态上报 1. 平台接收区域主控发送的 `UpdateStatusReport` 消息。 -2. 根据报告的状态,更新设备在平台上的固件版本和 OTA 任务记录的最终状态。 -3. 如果报告失败或回滚,平台应记录错误信息,并可能触发告警或人工干预。 +2. **总超时管理**: 平台为每个 OTA 任务设置一个总的超时时间(例如 2 小时)。如果在总超时时间内未能收到设备的最终状态报告(`SUCCESS`、`FAILED_XXX` 或 `ROLLED_BACK`),平台应自动将该任务标记为 `FAILED_TIMEOUT`。 +3. 根据报告的状态,更新设备在平台上的固件版本和 OTA 任务记录的最终状态。 +4. 如果报告失败或回滚,平台应记录错误信息,并可能触发告警或人工干预。 +5. **处理重复报告**: 平台在收到设备的最终状态报告后,即使后续再次收到相同的最终状态报告,也只需更新一次任务记录,无需重复处理。 ## 5. 区域主控侧操作流程 (MicroPython) @@ -168,22 +171,26 @@ message UpdateStatusReport { 1. 区域主控接收 `PrepareUpdateReq` 消息。 2. 清空非活动分区: 使用 MicroPython 的文件系统操作(例如 `os.remove()` 和 `os.rmdir()`),递归删除非活动 OTA 分区(例如 `/ota_b`)下的所有文件和目录,为新固件腾出空间。 + * **错误处理**: 在清空分区过程中,如果遇到文件系统错误(例如文件被占用、目录无法删除),设备应立即中止准备,并向平台发送 `UpdateStatusReport`,状态为 `FAILED_PREPARE`,并在 `error_message` 中包含详细的错误信息。 3. 设备准备就绪后,将直接开始请求清单文件,平台将通过设备请求清单文件的动作来判断设备已准备就绪。 ### 5.2. 请求并验证清单文件 1. 设备完成准备后,向平台发送 `RequestFile` 消息,请求清单文件(例如 `filename: "manifest.json", filepath: "/manifest.json"`)。 + * **请求超时与重试**: 设备发送 `RequestFile` 后,启动一个定时器。如果在预设的超时时间内(例如 30 秒)没有收到 `FileResponse`,则认为传输失败,并进行重试。设备应为清单文件请求设置最大重试次数(例如 5 次)。如果达到最大重试次数仍未成功,则上报 `FAILED_FILE_RECEIVE` 并中止 OTA 任务。 2. 区域主控接收平台响应的 `FileResponse` 消息。 3. **写入非活动分区**: 将清单文件内容写入非活动分区(例如 `/ota_b/manifest.json`)。 -4. **MD5 校验**: 计算接收到的清单文件的 MD5,并与预期的 MD5(如果设备有预置的清单文件 MD5 或通过其他安全方式获取)进行比对。**注意:由于清单文件本身也是通过 `RequestFile` 获取,其 MD5 校验的来源需要明确。最简单的方式是设备硬编码一个已知安全的清单文件 MD5,或者依赖数字签名。** + * **错误处理**: 如果文件写入失败,设备应立即中止升级,并向平台发送 `UpdateStatusReport`,状态为 `FAILED_FILE_RECEIVE`,并在 `error_message` 中包含详细的错误信息。 +4. **MD5 校验**: 计算写入非活动分区的清单文件的 MD5,并与 `PrepareUpdateReq` 消息中提供的 `manifest_md5` 进行比对。 5. **解析 JSON**: 解析清单文件内容,将其转换为 MicroPython 字典对象。 6. **数字签名验证 (未来扩展)**: 使用预置在设备中的平台公钥,验证清单文件的数字签名。如果签名验证失败,立即中止升级并报告错误。 -7. 向平台发送 `UpdateStatusReport` 报告清单文件接收和验证结果。如果校验失败,设备应再次请求清单文件(并设置重试次数)。 +7. 如果上述任何校验或解析失败,设备应向平台发送 `UpdateStatusReport` 报告 `FAILED_MANIFEST_VERIFY`,并在 `error_message` 中说明原因,然后中止升级。 ### 5.3. 请求与存储固件文件 (逐文件校验) 1. 设备成功接收并验证清单文件后,根据清单文件中的文件列表,**逐个文件**地向平台发送 `RequestFile` 消息。 2. 对于每个请求的文件: + * **请求超时与重试**: 设备发送 `RequestFile` 后,启动一个定时器。如果在预设的超时时间内(例如 30 秒)没有收到 `FileResponse`,则认为传输失败,并进行重试。设备应为每个文件的请求设置最大重试次数(例如 5 次)。如果达到最大重试次数仍未成功,则上报 `FAILED_FILE_RECEIVE` 并中止当前文件下载,进而中止整个 OTA 任务。 * 设备接收平台响应的 `FileResponse` 消息。 * **写入非活动分区**: 根据 `filepath` 字段,将 `content` 写入到 ESP32 的非活动 OTA 分区。需要确保目标目录存在,如果不存在则创建。 * 示例 (伪代码): @@ -193,13 +200,14 @@ message UpdateStatusReport { target_path = "/ota_b" + file_response.filepath target_dir = os.path.dirname(target_path) if not os.path.exists(target_dir): - os.makedirs(target_dir) + os.makedirs(target_dir) # 错误处理:如果创建目录失败,应上报 FAILED_FILE_RECEIVE with open(target_path, "wb") as f: - f.write(file_response.content) + f.write(file_response.content) # 错误处理:如果写入失败,应上报 FAILED_FILE_RECEIVE ``` + * **错误处理**: 如果文件写入失败,设备应立即中止升级,并向平台发送 `UpdateStatusReport`,状态为 `FAILED_FILE_RECEIVE`,并在 `error_message` 中包含详细的错误信息。 * **MD5 校验**: 在文件写入完成后,计算该文件的 MD5 校验和。将计算出的 MD5 与清单文件中记录的 MD5 进行比对。 * MicroPython 的 `hashlib` 模块通常提供 MD5 算法。 - * 如果校验失败或接收超时,设备应再次发送 `RequestFile` 消息请求该文件(并设置重试次数,例如连续三次失败则报告 `FAILED_FILE_VERIFY` 并中止升级)。平台不需等待每个文件的接收和校验状态报告。 + * 如果 MD5 校验失败,设备应再次发送 `RequestFile` 消息请求该文件(并设置重试次数,例如连续三次失败则报告 `FAILED_FILE_VERIFY` 并中止升级)。平台不需等待每个文件的接收和校验状态报告。 ### 5.4. 自激活与重启 @@ -210,16 +218,17 @@ message UpdateStatusReport { ### 5.5. 新版本启动与验证 1. 设备重启后,启动加载器会从新的 OTA 分区加载 MicroPython 固件。 -2. **自检**: 新固件启动后,应执行必要的自检和健康检查,确保核心功能正常。 -3. **标记有效**: 新固件在成功启动并完成自检后,必须调用相应的 MicroPython API(例如 `esp.ota_mark_app_valid_cancel_rollback()`)来标记自身为有效,以防止自动回滚。 +2. **自检**: 新固件启动后,应执行必要的自检和健康检查,确保核心功能正常。这包括但不限于:LoRa 模块初始化、关键传感器读取、网络连接测试、核心业务逻辑初始化等。 +3. **标记有效**: 只有当所有自检项都成功通过后,新固件才必须调用相应的 MicroPython API(例如 `esp.ota_mark_app_valid_cancel_rollback()`)来标记自身为有效,以防止自动回滚。 4. **版本上报**: 向平台发送 `UpdateStatusReport` 报告当前运行的版本号和升级成功状态。 5. **看门狗与回滚**: * ESP-IDF 的 OTA 机制通常包含一个“启动计数器”或“验证机制”。如果新固件在一定次数的尝试后仍未标记自身为有效,启动加载器会自动回滚到上一个有效固件。 - * 在 MicroPython 应用层,如果自检失败,不标记有效,以触发回滚。 + * 在 MicroPython 应用层,如果自检失败,**绝不能**标记自身为有效。设备应等待看门狗超时或系统自动重启,让 ESP-IDF 的底层 OTA 机制自动触发回滚到上一个有效固件。 ### 5.6. 报告最终状态 1. 无论是成功升级到新版本还是回滚到旧版本,区域主控都应向平台发送 `UpdateStatusReport` 报告最终的升级状态。 +2. **重复发送最终状态**: 为了提高在单向 LoRa 通信中平台接收到最终状态报告的可靠性,设备在发送最终的 `UpdateStatusReport` (无论是 `SUCCESS`、`FAILED_XXX` 还是 `ROLLED_BACK`) 时,应在短时间内(例如,间隔几秒)**重复发送该报告多次**(例如 3-5 次)。 ## 6. 关键技术点与注意事项 @@ -228,33 +237,175 @@ message UpdateStatusReport { * 确保 `internal/infra/transport/lora/lora_mesh_uart_passthrough_transport.go` 实现的 LoRa 传输层能够稳定、可靠地处理大尺寸 Protobuf 消息的分片和重组。 * 注意 LoRa 传输的速率和可靠性,合理设置超时和重试机制。 -### 6.2. 文件系统操作 (MicroPython) +### 6.2. 平台侧的请求处理 + +* `internal/app/listener/lora_listener.go` 模块在接收到设备发来的 `RequestFile` 消息时,需要高效地处理。这可能涉及到快速查询数据库以获取文件内容,或者通过回调机制将请求转发给 OTA 任务管理器进行处理,以避免阻塞 LoRa 监听器并确保及时响应设备请求。 + +### 6.3. 文件系统操作 (MicroPython) * MicroPython 在 ESP32 上通常使用 LittleFS 或 FATFS。确保文件系统操作(创建目录、写入文件、删除文件)的正确性和鲁棒性。 -* 清空非活动分区时,需要递归删除文件和目录。 -* 注意文件系统空间管理,确保非活动分区有足够的空间接收新固件。 +* 清空非活动分区时,需要递归删除文件和目录,并对可能出现的错误进行捕获和报告。 +* 在创建目录和写入文件时,也应进行错误捕获,并在失败时上报详细错误信息。 -### 6.3. MD5 校验 (MicroPython) +### 6.4. MD5 校验 (MicroPython) * MicroPython 的 `hashlib` 模块通常提供 MD5 算法。确保在设备上计算 MD5 的效率和准确性。 +* 设备将依赖 `PrepareUpdateReq` 中的 `manifest_md5` 对清单文件进行校验,并依赖清单文件中记录的 MD5 对所有固件文件进行校验。 -### 6.4. OTA 分区管理 (MicroPython) +### 6.5. OTA 分区管理 (MicroPython) * 熟悉 ESP-IDF 的 OTA 机制在 MicroPython 中的绑定和使用方法。 * 正确调用 API 来设置下一个启动分区和标记当前应用为有效。 +* 确保在自检失败时,**不**调用标记有效的 API,以触发回滚机制。 -### 6.5. 回滚机制 +### 6.6. 回滚机制 * 依赖 ESP-IDF 提供的 OTA 回滚机制。新固件必须在启动后标记自身为有效,否则在多次重启后会自动回滚。 * 在 MicroPython 应用层,如果自检失败,不标记有效,以触发回滚。 -### 6.6. 错误处理与重试 +### 6.7. 错误处理与重试 * 在平台和设备两侧,都需要实现完善的错误处理逻辑。 * 设备在请求文件时应包含重试次数,平台可以根据重试次数决定是否继续响应。 -* 设备应能向平台准确报告错误类型和原因。 +* 设备应能向平台准确报告错误类型和原因,包括文件系统操作失败、MD5 校验失败等。 +* 平台应具备对 OTA 任务的总超时管理能力。 -### 6.7. 安全性 (未来扩展) +### 6.8. 安全性 (未来扩展) * **数字签名**: 尽管目前暂时忽略密钥管理,但强烈建议在未来实现清单文件的数字签名。这将有效防止恶意固件注入和篡改。平台使用私钥签名,设备使用硬编码的公钥验证。 -* **LoRaWAN 安全**: 确保 LoRaWAN 的网络层和应用层密钥管理得当,防止未经授权的设备加入网络或窃听数据。 \ No newline at end of file +* **LoRaWAN 安全**: 确保 LoRaWAN 的网络层和应用层密钥管理得当, 防止未经授权的设备加入网络或窃听数据。 + +--- + +## 7. OTA 升级流程时序图 + +```mermaid +sequenceDiagram + participant User as 开发者 + participant Platform as 平台 + participant Device as 区域主控 + + User->>Platform: 上传固件包 (.zip) + activate Platform + Platform->>Platform: 解压固件包,分析文件,排除配置文件 + Platform->>Platform: 计算文件MD5,生成清单文件 (manifest.json) + Platform->>Platform: 存储固件文件和清单文件 + Platform->>Platform: 记录OTA升级任务 (状态: 待开始) + deactivate Platform + + Platform->>Device: PrepareUpdateReq (version, task_id, manifest_md5) + activate Platform + Platform->>Platform: 启动定时器 (等待设备请求清单文件) + activate Device + Device->>Device: 接收 PrepareUpdateReq + Device->>Device: 清空非活动OTA分区 (如 /ota_b) + alt 清空分区失败 + Device->>Platform: UpdateStatusReport (FAILED_PREPARE, error_message) (重复发送多次) + deactivate Device + Platform->>Platform: 更新任务状态为 FAILED_PREPARE + deactivate Platform + break + end + Device->>Platform: RequestFile (task_id, filename: "manifest.json", filepath: "/manifest.json", retry_count: 0) + deactivate Device + + activate Platform + Platform->>Platform: 收到 RequestFile,更新任务状态 (状态: 进行中) + Platform->>Platform: 查找 manifest.json 内容 + Platform->>Device: FileResponse (task_id, filename: "manifest.json", filepath: "/manifest.json", content) + deactivate Platform + + activate Device + Device->>Device: 接收 FileResponse (manifest.json) + Device->>Device: 将内容写入非活动分区 (/ota_b/manifest.json) + alt 写入失败 + Device->>Platform: UpdateStatusReport (FAILED_FILE_RECEIVE, error_message) (重复发送多次) + deactivate Device + Platform->>Platform: 更新任务状态为 FAILED_FILE_RECEIVE + deactivate Platform + break + end + Device->>Device: 计算写入文件的MD5 + Device->>Device: 比对 MD5 (与 PrepareUpdateReq.manifest_md5) + alt MD5不匹配 或 JSON解析失败 + Device->>Platform: UpdateStatusReport (FAILED_MANIFEST_VERIFY, error_message) (重复发送多次) + deactivate Device + Platform->>Platform: 更新任务状态为 FAILED_MANIFEST_VERIFY + deactivate Platform + break + end + Device->>Device: 解析 manifest.json,获取文件列表 + deactivate Device + + loop For each file in manifest + activate Device + Device->>Platform: RequestFile (task_id, filename: "file_X.py", filepath: "/path/to/file_X.py", retry_count) + Device->>Device: 启动定时器 (等待 FileResponse) + deactivate Device + + activate Platform + Platform->>Platform: 收到 RequestFile,更新文件传输状态 + Platform->>Platform: 查找 file_X.py 内容 + Platform->>Device: FileResponse (task_id, filename: "file_X.py", filepath: "/path/to/file_X.py", content) + deactivate Platform + + activate Device + Device->>Device: 接收 FileResponse (file_X.py) + Device->>Device: 确保目标目录存在,将内容写入非活动分区 (/ota_b/path/to/file_X.py) + alt 写入失败 + Device->>Platform: UpdateStatusReport (FAILED_FILE_RECEIVE, error_message) (重复发送多次) + deactivate Device + Platform->>Platform: 更新任务状态为 FAILED_FILE_RECEIVE + deactivate Platform + break loop + end + Device->>Device: 计算写入文件的MD5 + Device->>Device: 比对 MD5 (与 manifest.files[X].md5) + alt MD5不匹配 或 超时未收到 FileResponse (达到最大重试次数) + Device->>Device: 增加 retry_count + alt 达到最大重试次数 + Device->>Platform: UpdateStatusReport (FAILED_FILE_VERIFY/FAILED_FILE_RECEIVE, error_message) (重复发送多次) + deactivate Device + Platform->>Platform: 更新任务状态为 FAILED_FILE_VERIFY/FAILED_FILE_RECEIVE + deactivate Platform + break loop + else + Device->>Platform: RequestFile (重试请求该文件) + end + end + deactivate Device + end + + activate Device + Device->>Device: 所有文件下载并校验成功 + Device->>Device: 配置OTA分区为新固件分区 + Device->>Device: 自触发重启 + deactivate Device + + Device-->>Device: (设备重启,加载新固件) + + activate Device + Device->>Device: 新固件启动,执行自检 + alt 自检成功 + Device->>Device: 标记自身为有效 (esp.ota_mark_app_valid_cancel_rollback()) + Device->>Platform: UpdateStatusReport (SUCCESS, current_version) (重复发送多次) + deactivate Device + activate Platform + Platform->>Platform: 更新任务状态为 SUCCESS + Platform->>Platform: 更新设备固件版本 + deactivate Platform + else 自检失败 + Device->>Device: 不标记自身为有效 + Device->>Platform: UpdateStatusReport (FAILED_ACTIVATE, error_message) (重复发送多次) + Device-->>Device: (等待看门狗超时或系统自动回滚) + Device-->>Device: (回滚到旧固件) + Device->>Platform: UpdateStatusReport (ROLLED_BACK, current_version: 旧版本) (重复发送多次) + deactivate Device + + activate Platform + Platform->>Platform: 更新任务状态为 ROLLED_BACK + Platform->>Platform: 更新设备固件版本为旧版本 + deactivate Platform + end + Platform->>Platform: 总超时检查 (如果长时间未收到最终状态,则标记为 FAILED_TIMEOUT) +``` \ No newline at end of file