更新ota方案
This commit is contained in:
@@ -13,7 +13,7 @@ http://git.huangwc.com/pig/pig-farm-controller/issues/71
|
|||||||
- [x] 增加一个proto对象, 用于封装ota升级包
|
- [x] 增加一个proto对象, 用于封装ota升级包
|
||||||
- [x] 区域主控增加版本号
|
- [x] 区域主控增加版本号
|
||||||
- [x] 增加ping指令并获取带版本号的响应
|
- [x] 增加ping指令并获取带版本号的响应
|
||||||
- [ ] 实现ota升级逻辑
|
- [ ] [实现ota升级逻辑](design/ota-upgrade-and-log-monitoring/ota_upgrade_solution.md)
|
||||||
|
|
||||||
## Lora 监听逻辑重构
|
## Lora 监听逻辑重构
|
||||||
|
|
||||||
|
|||||||
@@ -35,14 +35,13 @@
|
|||||||
1. **接收**: 平台接收开发者上传的 MicroPython 项目压缩包。
|
1. **接收**: 平台接收开发者上传的 MicroPython 项目压缩包。
|
||||||
2. **解压**: 平台将该压缩包解压到内部的一个临时目录。
|
2. **解压**: 平台将该压缩包解压到内部的一个临时目录。
|
||||||
3. **分析与生成清单**: 平台遍历解压后的所有文件,为每个文件计算:
|
3. **分析与生成清单**: 平台遍历解压后的所有文件,为每个文件计算:
|
||||||
* 文件名 (`name`)
|
|
||||||
* 在设备上的目标路径 (`path`)
|
* 在设备上的目标路径 (`path`)
|
||||||
* MD5 校验和 (`md5`)
|
* MD5 校验和 (`md5`)
|
||||||
* 文件大小 (`size`)
|
* 文件大小 (`size`)
|
||||||
* **排除配置文件**: 平台会识别配置文件(例如通过文件名约定,如 `/config/` 目录下的所有文件),并**排除**
|
* **排除配置文件**: 平台会识别配置文件(例如通过文件名约定,如 `/config/` 目录下的所有文件),并**排除**
|
||||||
这些文件,不将其包含在清单文件中,也不通过 OTA 传输。
|
这些文件,不将其包含在清单文件中,也不通过 OTA 传输。
|
||||||
4. **生成清单文件**: 平台根据上述信息,生成一个 JSON 格式的清单文件。
|
4. **生成清单文件**: 平台根据上述信息,生成一个 JSON 格式的清单文件。
|
||||||
5. **数字签名 (未来扩展)**: 平台使用其私钥对**清单文件**的内容进行数字签名,并将签名添加到清单文件中。此步骤目前可跳过,但为未来安全性预留。
|
5. **数字签名 (未来扩展)**: 平台使用其私钥对**清单文件**的内容进行数字签名,并将签名添加到清单文件中。
|
||||||
|
|
||||||
### 2.3. 清单文件 (Manifest File) 结构
|
### 2.3. 清单文件 (Manifest File) 结构
|
||||||
|
|
||||||
@@ -56,20 +55,17 @@
|
|||||||
// 清单文件内容的数字签名 (未来扩展)
|
// 清单文件内容的数字签名 (未来扩展)
|
||||||
"files": [
|
"files": [
|
||||||
{
|
{
|
||||||
"name": "manifest.json",
|
|
||||||
// 清单文件本身
|
|
||||||
"path": "/manifest.json",
|
"path": "/manifest.json",
|
||||||
|
// 清单文件本身也作为文件列表的一部分
|
||||||
"md5": "a1b2c3d4e5f6a7b8c9d0e1f2a3b4c5d6",
|
"md5": "a1b2c3d4e5f6a7b8c9d0e1f2a3b4c5d6",
|
||||||
"size": 1024
|
"size": 1024
|
||||||
},
|
},
|
||||||
{
|
{
|
||||||
"name": "main.py",
|
|
||||||
"path": "/main.py",
|
"path": "/main.py",
|
||||||
"md5": "b2c3d4e5f6a7b8c9d0e1f2a3b4c5d6a1",
|
"md5": "b2c3d4e5f6a7b8c9d0e1f2a3b4c5d6a1",
|
||||||
"size": 10240
|
"size": 10240
|
||||||
},
|
},
|
||||||
{
|
{
|
||||||
"name": "lib/sensor.py",
|
|
||||||
"path": "/lib/sensor.py",
|
"path": "/lib/sensor.py",
|
||||||
"md5": "c3d4e5f6a7b8c9d0e1f2a3b4c5d6a1b2",
|
"md5": "c3d4e5f6a7b8c9d0e1f2a3b4c5d6a1b2",
|
||||||
"size": 5120
|
"size": 5120
|
||||||
@@ -96,40 +92,38 @@ message PrepareUpdateReq {
|
|||||||
// RequestFile: 设备向平台请求特定文件 (包括清单文件和固件文件)
|
// RequestFile: 设备向平台请求特定文件 (包括清单文件和固件文件)
|
||||||
message RequestFile {
|
message RequestFile {
|
||||||
string task_id = 1; // 升级任务ID
|
string task_id = 1; // 升级任务ID
|
||||||
string filename = 2; // 请求的文件名 (例如 "manifest.json" 或 "main.py")
|
string filepath = 2; // 请求的文件路径 (例如 "/manifest.json" 或 "/main.py")
|
||||||
string filepath = 3; // 请求的文件路径 (例如 "/manifest.json" 或 "/main.py")
|
uint32 retry_count = 3; // 设备请求该文件的重试次数
|
||||||
uint32 retry_count = 4; // 设备请求该文件的重试次数
|
|
||||||
}
|
}
|
||||||
|
|
||||||
// FileResponse: 平台响应设备请求,发送单个文件的完整内容
|
// FileResponse: 平台响应设备请求,发送单个文件的完整内容
|
||||||
// LoRa 传输层会自动处理分片和重组,因此应用层可以直接发送完整的单个文件内容
|
// LoRa 传输层会自动处理分片和重组,因此应用层可以直接发送完整的单个文件内容
|
||||||
message FileResponse {
|
message FileResponse {
|
||||||
string task_id = 1; // 升级任务ID
|
string task_id = 1; // 升级任务ID
|
||||||
string filename = 2; // 文件名 (例如 "manifest.json" 或 "main.py")
|
string filepath = 2; // 设备上的目标路径 (例如 "/manifest.json" 或 "/main.py")
|
||||||
string filepath = 3; // 设备上的目标路径 (例如 "/manifest.json" 或 "/main.py")
|
bytes content = 3; // 文件的完整内容
|
||||||
bytes content = 4; // 文件的完整内容
|
|
||||||
}
|
}
|
||||||
|
|
||||||
// UpdateStatusReport: 设备向平台报告升级状态
|
// UpdateStatusReport: 设备向平台报告升级状态
|
||||||
message UpdateStatusReport {
|
message UpdateStatusReport {
|
||||||
string device_id = 1; // 设备ID
|
string device_id = 1; // 设备ID
|
||||||
string task_id = 2; // 升级任务ID
|
string task_id = 2; // 升级任务ID
|
||||||
string current_version = 3; // 设备当前运行的固件版本
|
string current_version = 3; // 操作完成后的当前版本
|
||||||
enum Status {
|
enum Status {
|
||||||
UNKNOWN = 0;
|
STATUS_UNKNOWN = 0;
|
||||||
SUCCESS = 1; // 升级成功,新固件已运行
|
|
||||||
FAILED_PREPARE = 2; // 准备阶段失败 (如清空分区失败,或文件系统错误)
|
// --- 设备主动上报的状态 ---
|
||||||
FAILED_FILE_REQUEST = 3; // 文件请求失败 (如平台未找到文件)
|
SUCCESS = 1; // 升级成功,新固件已运行 (由设备在自检成功后主动上报)
|
||||||
FAILED_FILE_RECEIVE = 4; // 文件接收失败 (如LoRa传输层错误,或文件写入失败)
|
SUCCESS_ALREADY_UP_TO_DATE = 2; // 版本已是最新,未执行升级 (由设备在版本检查后主动上报)
|
||||||
FAILED_FILE_VERIFY = 5; // 文件MD5校验失败 (单个文件校验失败)
|
FAILED_PRE_CHECK = 3; // 升级前检查失败 (例如拒绝降级、准备分区失败等,由设备主动上报)
|
||||||
FAILED_MANIFEST_VERIFY = 6; // 清单文件验证失败 (如MD5不匹配,或格式错误)
|
FAILED_DOWNLOAD = 4; // 文件下载或校验失败 (由设备在下载过程中主动上报)
|
||||||
FAILED_ACTIVATE = 7; // 激活失败 (如设置启动分区失败,或新固件自检失败)
|
|
||||||
ROLLED_BACK = 8; // 新固件启动失败,已回滚到旧版本
|
// --- 平台推断的状态 (数据库记录用) ---
|
||||||
IN_PROGRESS = 9; // 升级进行中 (可用于报告阶段性进度)
|
FAILED_TIMEOUT = 5; // 平台在超时后仍未收到SUCCESS报告,将任务标记为此状态
|
||||||
}
|
}
|
||||||
Status status = 4; // 升级状态
|
Status status = 4; // 升级的最终状态
|
||||||
string error_message = 5; // 错误信息 (可选,用于详细说明失败原因)
|
string error_message = 6; // 人类可读的详细错误信息
|
||||||
string failed_file = 6; // 如果是文件相关失败,可包含文件名
|
string failed_file = 7; // 失败时关联的文件路径 (可选)
|
||||||
}
|
}
|
||||||
```
|
```
|
||||||
|
|
||||||
@@ -140,11 +134,9 @@ message UpdateStatusReport {
|
|||||||
1. 接收开发者提供的 MicroPython 项目压缩包。
|
1. 接收开发者提供的 MicroPython 项目压缩包。
|
||||||
2. 解压压缩包。
|
2. 解压压缩包。
|
||||||
3. 遍历解压后的文件,计算每个文件的 MD5、大小,并确定目标路径。
|
3. 遍历解压后的文件,计算每个文件的 MD5、大小,并确定目标路径。
|
||||||
4. **排除配置文件**: 平台会识别配置文件(例如通过文件名约定,如 `/config/` 目录下的所有文件),并**排除**
|
4. **排除配置文件**: 平台会识别配置文件(例如通过文件名约定,如 `/config/` 目录下的所有文件),并**排除**这些文件。
|
||||||
这些文件,不将其包含在清单文件中,也不通过 OTA 传输。
|
5. 生成清单文件 (Manifest File)。**注意:清单文件本身也应作为 OTA 的一部分,其元数据应包含在清单文件自身的 `files`
|
||||||
5. 生成清单文件 (Manifest File)。**注意:清单文件本身也应作为 OTA
|
列表中。Manifest文件生成后将被放在解压后的文件夹的根目录下, 方便后续主控设备获取**
|
||||||
的一部分,其元数据(文件名、路径、MD5、大小)应包含在清单文件自身的 `files` 列表中。Manifest文件生成后将被放在解压后的文件夹的根目录下,
|
|
||||||
方便后续主控设备获取**
|
|
||||||
6. (未来扩展)对清单文件进行数字签名。
|
6. (未来扩展)对清单文件进行数字签名。
|
||||||
7. 将清单文件和所有固件文件存储在平台内部,等待分发。
|
7. 将清单文件和所有固件文件存储在平台内部,等待分发。
|
||||||
8. **记录 OTA 升级任务**: 在数据库中创建一条新的 OTA 升级任务记录(模型名为 `OTATask`,位于 `internal/infra/models/ota.go`
|
8. **记录 OTA 升级任务**: 在数据库中创建一条新的 OTA 升级任务记录(模型名为 `OTATask`,位于 `internal/infra/models/ota.go`
|
||||||
@@ -152,221 +144,163 @@ message UpdateStatusReport {
|
|||||||
|
|
||||||
### 4.2. 发送“准备更新”指令
|
### 4.2. 发送“准备更新”指令
|
||||||
|
|
||||||
1. 平台向目标区域主控发送 `PrepareUpdateReq` 消息,其中包含清单文件的 MD5 校验和。
|
1. 平台向目标区域主控发送 `PrepareUpdateReq` 消息。
|
||||||
2. 此消息通知设备即将进行 OTA 升级,并要求设备清空其非活动 OTA 分区。
|
2. **更新任务记录**: 平台发送指令后,更新 OTA 任务记录的状态为“进行中”。
|
||||||
3. **确认指令送达**: 平台发送 `PrepareUpdateReq` 后,启动一个定时器。如果在预设的超时时间内(例如 30 秒)未收到设备请求清单文件的
|
|
||||||
`RequestFile` 消息,平台可以重试发送 `PrepareUpdateReq`,重试次数可配置。
|
|
||||||
4. **更新任务记录**: 平台根据设备开始索要清单文件的动作,更新 OTA 任务记录的状态为“进行中”。
|
|
||||||
|
|
||||||
### 4.3. 响应设备文件请求 (统一处理清单文件和固件文件)
|
### 4.3. 响应设备文件请求
|
||||||
|
|
||||||
1. 平台接收区域主控发送的 `RequestFile` 消息。
|
1. 平台接收区域主控发送的 `RequestFile` 消息。
|
||||||
2. 平台根据 `task_id`、`filename` 和 `filepath` 在内部存储中找到对应的文件内容。
|
2. 平台根据 `task_id` 和 `filepath` 在内部存储中找到对应的文件内容。
|
||||||
3. 平台构建 `FileResponse` 消息,将文件的完整内容、文件名和路径放入其中。
|
3. 平台构建 `FileResponse` 消息,将文件的完整内容和路径放入其中。
|
||||||
4. 平台通过 LoRa 传输层发送 `FileResponse` 消息。设备自己发现接收失败或超时会自行重发请求,多次失败设备会直接上报
|
4. 平台通过 LoRa 传输层发送 `FileResponse` 消息。
|
||||||
`UpdateStatusReport` 结束更新。
|
|
||||||
5. 更新任务记录: 平台根据设备请求文件的动作,更新 OTA 任务记录中该文件的传输状态。
|
|
||||||
|
|
||||||
### 4.4. 处理设备状态上报
|
### 4.4. 处理设备状态上报
|
||||||
|
|
||||||
1. 平台接收区域主控发送的 `UpdateStatusReport` 消息。
|
1. 平台接收区域主控发送的 `UpdateStatusReport` 消息。
|
||||||
2. **总超时管理**: 平台为每个 OTA 任务设置一个总的超时时间(例如 2 小时)。如果在总超时时间内未能收到设备的最终状态报告(
|
2. 根据报告的 `status` (`SUCCESS` 或 `FAILED`),更新 OTA 任务记录的最终状态,并记录 `error_code` 和 `error_message`。
|
||||||
`SUCCESS`、`FAILED_XXX` 或 `ROLLED_BACK`),平台应自动将该任务标记为 `FAILED_TIMEOUT`。
|
3. 如果状态为 `SUCCESS`,平台应更新该设备在系统中的固件版本记录。
|
||||||
3. 根据报告的状态,更新设备在平台上的固件版本和 OTA 任务记录的最终状态。
|
4. **总超时管理**: 平台为每个 OTA 任务设置一个总的超时时间(例如 2 小时)。如果在总超时时间内未能收到设备的最终状态报告,平台应自动将该任务标记为
|
||||||
4. 如果报告失败或回滚,平台应记录错误信息,并可能触发告警或人工干预。
|
`FAILED`,`error_code` 设为 `ERR_TIMEOUT`。
|
||||||
5. **处理重复报告**: 平台在收到设备的最终状态报告后,即使后续再次收到相同的最终状态报告,也只需更新一次任务记录,无需重复处理。
|
5. **处理重复报告**: 平台在收到最终状态报告后,即使后续再次收到相同的报告,也只需更新一次任务记录,无需重复处理。
|
||||||
|
|
||||||
## 5. 区域主控侧操作流程 (MicroPython)
|
## 5. 区域主控侧操作流程 (MicroPython)
|
||||||
|
|
||||||
### 5.1. 接收“准备更新”指令
|
### 5.1. 接收“准备更新”指令与版本检查
|
||||||
|
|
||||||
1. 区域主控接收 `PrepareUpdateReq` 消息。
|
1. 区域主控接收 `PrepareUpdateReq` 消息。
|
||||||
2. 清空非活动分区: 使用 MicroPython 的文件系统操作(例如 `os.remove()` 和 `os.rmdir()`),递归删除非活动 OTA 分区(例如
|
2. **版本检查**: 设备将 `PrepareUpdateReq` 中的 `version` 与自身当前运行的固件版本进行比较。
|
||||||
`/ota_b`)下的所有文件和目录,为新固件腾出空间。
|
* **降级场景**: 如果 `新版本 < 当前版本`,设备立即中止升级,并向平台发送 `UpdateStatusReport` (status: `FAILED`,
|
||||||
* **错误处理**: 在清空分区过程中,如果遇到文件系统错误(例如文件被占用、目录无法删除),设备应立即中止准备,并向平台发送
|
error_code: `ERR_VERSION_ROLLBACK`, error_message: "拒绝版本回滚,目标版本低于当前版本")。
|
||||||
`UpdateStatusReport`,状态为 `FAILED_PREPARE`,并在 `error_message` 中包含详细的错误信息。
|
* **同版本场景**: 如果 `新版本 == 当前版本`,设备立即中止升级,并向平台发送 `UpdateStatusReport` (status: `SUCCESS`,
|
||||||
3. 设备准备就绪后,将直接开始请求清单文件,平台将通过设备请求清单文件的动作来判断设备已准备就绪。
|
error_code: `SUCCESS_ALREADY_UP_TO_DATE`, error_message: "版本已是最新,无需升级")。
|
||||||
|
* **正常升级场景**: 如果 `新版本 > 当前版本`,继续执行下一步。
|
||||||
|
3. **清空非活动分区**: 使用 MicroPython 的文件系统操作(例如 `os.remove()` 和 `os.rmdir()`),递归删除非活动 OTA 分区(例如
|
||||||
|
`/ota_b`)下的所有文件和目录。
|
||||||
|
* **错误处理**: 如果清空分区失败,设备应立即中止,并向平台发送 `UpdateStatusReport` (status: `FAILED`, error_code:
|
||||||
|
`ERR_PREPARE`, error_message: "清空非活动分区失败: [具体错误]").
|
||||||
|
4. 设备准备就绪后,将直接开始请求清单文件。
|
||||||
|
|
||||||
### 5.2. 请求并验证清单文件
|
### 5.2. 请求并验证清单文件
|
||||||
|
|
||||||
1. 设备完成准备后,向平台发送 `RequestFile` 消息,请求清单文件(例如
|
1. 设备完成准备后,向平台发送 `RequestFile` 消息,请求清单文件 (`filepath: "/manifest.json"`)。
|
||||||
`filename: "manifest.json", filepath: "/manifest.json"`)。
|
2. 设备接收平台响应的 `FileResponse` 消息,并将其写入非活动分区(例如 `/ota_b/manifest.json`)。
|
||||||
* **请求超时与重试**: 设备发送 `RequestFile` 后,启动一个定时器。如果在预设的超时时间内(例如 30 秒)没有收到
|
3. **MD5 校验**: 计算写入的清单文件的 MD5,并与 `PrepareUpdateReq` 消息中提供的 `manifest_md5` 进行比对。
|
||||||
`FileResponse`,则认为传输失败,并进行重试。设备应为清单文件请求设置最大重试次数(例如 5 次)。如果达到最大重试次数仍未成功,则上报
|
4. **解析 JSON**: 解析清单文件内容。
|
||||||
`FAILED_FILE_RECEIVE` 并中止 OTA 任务。
|
5. **数字签名验证 (未来扩展)**: 使用预置的平台公钥,验证清单文件的数字签名。
|
||||||
2. 区域主控接收平台响应的 `FileResponse` 消息。
|
6. 如果上述任何步骤失败,设备应向平台发送 `UpdateStatusReport` (status: `FAILED`, error_code: `ERR_MANIFEST_VERIFY`,
|
||||||
3. **写入非活动分区**: 将清单文件内容写入非活动分区(例如 `/ota_b/manifest.json`)。
|
error_message: "[具体失败原因]"), 然后中止升级。
|
||||||
* **错误处理**: 如果文件写入失败,设备应立即中止升级,并向平台发送 `UpdateStatusReport`,状态为 `FAILED_FILE_RECEIVE`
|
|
||||||
,并在 `error_message` 中包含详细的错误信息。
|
|
||||||
4. **MD5 校验**: 计算写入非活动分区的清单文件的 MD5,并与 `PrepareUpdateReq` 消息中提供的 `manifest_md5` 进行比对。
|
|
||||||
5. **解析 JSON**: 解析清单文件内容,将其转换为 MicroPython 字典对象。
|
|
||||||
6. **数字签名验证 (未来扩展)**: 使用预置在设备中的平台公钥,验证清单文件的数字签名。如果签名验证失败,立即中止升级并报告错误。
|
|
||||||
7. 如果上述任何校验或解析失败,设备应向平台发送 `UpdateStatusReport` 报告 `FAILED_MANIFEST_VERIFY`,并在 `error_message`
|
|
||||||
中说明原因,然后中止升级。
|
|
||||||
|
|
||||||
### 5.3. 请求与存储固件文件 (逐文件校验)
|
### 5.3. 请求与存储固件文件 (逐文件校验)
|
||||||
|
|
||||||
1. 设备成功接收并验证清单文件后,根据清单文件中的文件列表,**逐个文件**地向平台发送 `RequestFile` 消息。
|
1. 设备成功接收并验证清单文件后,根据清单文件中的文件列表,**逐个文件**地向平台发送 `RequestFile` 消息。
|
||||||
2. 对于每个请求的文件:
|
2. 对于每个请求的文件:
|
||||||
* **请求超时与重试**: 设备发送 `RequestFile` 后,启动一个定时器。如果在预设的超时时间内(例如 30 秒)没有收到
|
* **请求、接收与写入**: 设备请求文件,接收响应,并根据 `filepath` 将内容写入到非活动 OTA 分区。需要确保目标目录存在,如果不存在则创建。
|
||||||
`FileResponse`,则认为传输失败,并进行重试。设备应为每个文件的请求设置最大重试次数(例如 5 次)。如果达到最大重试次数仍未成功,则上报
|
* **MD5 校验**: 在文件写入完成后,计算该文件的 MD5 校验和,并与清单文件中记录的 MD5 进行比对。
|
||||||
`FAILED_FILE_RECEIVE` 并中止当前文件下载,进而中止整个 OTA 任务。
|
* **错误处理与重试**:
|
||||||
* 设备接收平台响应的 `FileResponse` 消息。
|
* 如果文件下载超时、写入失败或 MD5 校验失败,设备将进行重试(例如最多 3 次)。
|
||||||
* **写入非活动分区**: 根据 `filepath` 字段,将 `content` 写入到 ESP32 的非活动 OTA 分区。需要确保目标目录存在,如果不存在则创建。
|
* 如果达到最大重试次数仍失败,设备应立即中止整个 OTA 任务,并向平台发送 `UpdateStatusReport` (status: `FAILED`,
|
||||||
* 示例 (伪代码):
|
error_code: `ERR_DOWNLOAD` 或 `ERR_VERIFY`, error_message: "[具体失败原因]", failed_file: "[失败的文件路径]")。
|
||||||
```python
|
|
||||||
import os
|
|
||||||
# 假设非活动分区挂载在 /ota_b
|
|
||||||
target_path = "/ota_b" + file_response.filepath
|
|
||||||
target_dir = os.path.dirname(target_path)
|
|
||||||
if not os.path.exists(target_dir):
|
|
||||||
os.makedirs(target_dir) # 错误处理:如果创建目录失败,应上报 FAILED_FILE_RECEIVE
|
|
||||||
with open(target_path, "wb") as f:
|
|
||||||
f.write(file_response.content) # 错误处理:如果写入失败,应上报 FAILED_FILE_RECEIVE
|
|
||||||
```
|
|
||||||
* **错误处理**: 如果文件写入失败,设备应立即中止升级,并向平台发送 `UpdateStatusReport`,状态为
|
|
||||||
`FAILED_FILE_RECEIVE`,并在 `error_message` 中包含详细的错误信息。
|
|
||||||
* **MD5 校验**: 在文件写入完成后,计算该文件的 MD5 校验和。将计算出的 MD5 与清单文件中记录的 MD5 进行比对。
|
|
||||||
* MicroPython 的 `hashlib` 模块通常提供 MD5 算法。
|
|
||||||
* 如果 MD5 校验失败,设备应再次发送 `RequestFile` 消息请求该文件(并设置重试次数,例如连续三次失败则报告
|
|
||||||
`FAILED_FILE_VERIFY` 并中止升级)。平台不需等待每个文件的接收和校验状态报告。
|
|
||||||
|
|
||||||
### 5.4. 自激活与重启
|
### 5.4. 自激活与重启
|
||||||
|
|
||||||
1. **所有文件接收并校验成功后**,设备将自行执行以下操作:
|
1. **所有文件接收并校验成功后**,设备将自行执行以下操作:
|
||||||
* **配置 OTA 分区**: 使用 MicroPython 提供的 ESP-IDF OTA API(通常通过 `esp` 模块或特定 OTA
|
* **配置 OTA 分区**: 使用 MicroPython 提供的 ESP-IDF OTA API,设置下一个启动分区为刚刚写入新固件的非活动分区。
|
||||||
模块),设置下一个启动分区为刚刚写入新固件的非活动分区。
|
|
||||||
* **自触发重启**: 在成功配置 OTA 分区后,区域主控自行触发重启。
|
* **自触发重启**: 在成功配置 OTA 分区后,区域主控自行触发重启。
|
||||||
|
|
||||||
### 5.5. 新版本启动与验证
|
### 5.5. 新版本启动与验证
|
||||||
|
|
||||||
1. 设备重启后,启动加载器会从新的 OTA 分区加载 MicroPython 固件。
|
1. 设备重启后,启动加载器会从新的 OTA 分区加载 MicroPython 固件。
|
||||||
2. **自检**: 新固件启动后,应执行必要的自检和健康检查,确保核心功能正常。这包括但不限于:LoRa
|
2. **自检**: 新固件启动后,应执行必要的自检(如 LoRa 初始化、网络连接等)。
|
||||||
模块初始化、关键传感器读取、网络连接测试、核心业务逻辑初始化等。
|
3. **标记有效**: 只有当所有自检项都成功通过后,新固件才必须调用相应的 API(例如 `esp.ota_mark_app_valid_cancel_rollback()`
|
||||||
3. **标记有效**: 只有当所有自检项都成功通过后,新固件才必须调用相应的 MicroPython API(例如
|
)来标记自身为有效。
|
||||||
`esp.ota_mark_app_valid_cancel_rollback()`)来标记自身为有效,以防止自动回滚。
|
4. **看门狗与回滚**:
|
||||||
4. **版本上报**: 向平台发送 `UpdateStatusReport` 报告当前运行的版本号和升级成功状态。
|
* 如果新固件在一定次数的尝试后仍未标记自身为有效,启动加载器会自动回滚到上一个有效固件。
|
||||||
5. **看门狗与回滚**:
|
* 在 MicroPython 应用层,如果自检失败,**绝不能**标记自身为有效,并应等待底层机制自动触发回滚。
|
||||||
* ESP-IDF 的 OTA 机制通常包含一个“启动计数器”或“验证机制”。如果新固件在一定次数的尝试后仍未标记自身为有效,启动加载器会自动回滚到上一个有效固件。
|
|
||||||
* 在 MicroPython 应用层,如果自检失败,**绝不能**标记自身为有效。设备应等待看门狗超时或系统自动重启,让 ESP-IDF 的底层
|
|
||||||
OTA 机制自动触发回滚到上一个有效固件。
|
|
||||||
|
|
||||||
### 5.6. 报告最终状态
|
### 5.6. 报告最终状态
|
||||||
|
|
||||||
1. 无论是成功升级到新版本还是回滚到旧版本,区域主控都应向平台发送 `UpdateStatusReport` 报告最终的升级状态。
|
1. **成功场景**: 新固件自检成功并标记有效后,向平台发送 `UpdateStatusReport` (status: `SUCCESS`, current_version:
|
||||||
2. **重复发送最终状态**: 为了提高在单向 LoRa 通信中平台接收到最终状态报告的可靠性,设备在发送最终的
|
新版本号)。
|
||||||
`UpdateStatusReport` (无论是 `SUCCESS`、`FAILED_XXX` 还是 `ROLLED_BACK`) 时,应在短时间内(例如,间隔几秒)**重复发送该报告多次
|
2. **回滚场景**: 设备回滚到旧版本后,向平台发送 `UpdateStatusReport` (status: `FAILED`, error_code: `ERR_ROLLED_BACK`,
|
||||||
**(例如 3-5 次)。
|
error_message: "新固件启动失败,已自动回滚", current_version: 旧版本号)。
|
||||||
|
3. **重复发送**: 为了提高在单向 LoRa 通信中的可靠性,设备在发送最终状态报告时,应在短时间内重复发送多次(例如 3-5 次)。
|
||||||
|
|
||||||
## 6. 关键技术点与注意事项
|
## 6. 关键技术点与注意事项
|
||||||
|
|
||||||
### 6.1. LoRa 传输层
|
### 6.1. LoRa 传输层
|
||||||
|
|
||||||
* 确保 `internal/infra/transport/lora/lora_mesh_uart_passthrough_transport.go` 实现的 LoRa 传输层能够稳定、可靠地处理大尺寸
|
* 确保 `internal/infra/transport/lora/lora_mesh_uart_passthrough_transport.go` 能稳定处理大尺寸 Protobuf 消息的分片和重组。
|
||||||
Protobuf 消息的分片和重组。
|
|
||||||
* 注意 LoRa 传输的速率和可靠性,合理设置超时和重试机制。
|
|
||||||
|
|
||||||
### 6.2. 平台侧的请求处理
|
### 6.2. 平台侧的请求处理
|
||||||
|
|
||||||
* `internal/app/listener/lora_listener.go` 模块在接收到设备发来的 `RequestFile`
|
* `internal/app/listener/lora_listener.go` 在接收 `RequestFile` 消息时,需要高效处理,避免阻塞监听器。
|
||||||
消息时,需要高效地处理。这可能涉及到快速查询数据库以获取文件内容,或者通过回调机制将请求转发给 OTA 任务管理器进行处理,以避免阻塞
|
|
||||||
LoRa 监听器并确保及时响应设备请求。
|
|
||||||
|
|
||||||
### 6.3. 文件系统操作 (MicroPython)
|
### 6.3. 文件系统操作 (MicroPython)
|
||||||
|
|
||||||
* MicroPython 在 ESP32 上通常使用 LittleFS 或 FATFS。确保文件系统操作(创建目录、写入文件、删除文件)的正确性和鲁棒性。
|
* 确保文件系统操作(创建目录、写入文件、删除文件)的正确性和鲁棒性,并对错误进行捕获和报告。
|
||||||
* 清空非活动分区时,需要递归删除文件和目录,并对可能出现的错误进行捕获和报告。
|
|
||||||
* 在创建目录和写入文件时,也应进行错误捕获,并在失败时上报详细错误信息。
|
|
||||||
|
|
||||||
### 6.4. MD5 校验 (MicroPython)
|
### 6.4. MD5 校验 (MicroPython)
|
||||||
|
|
||||||
* MicroPython 的 `hashlib` 模块通常提供 MD5 算法。确保在设备上计算 MD5 的效率和准确性。
|
* MicroPython 的 `hashlib` 模块提供 MD5 算法。确保计算的效率和准确性。
|
||||||
* 设备将依赖 `PrepareUpdateReq` 中的 `manifest_md5` 对清单文件进行校验,并依赖清单文件中记录的 MD5 对所有固件文件进行校验。
|
|
||||||
|
|
||||||
### 6.5. OTA 分区管理 (MicroPython)
|
### 6.5. OTA 分区管理 (MicroPython)
|
||||||
|
|
||||||
* 熟悉 ESP-IDF 的 OTA 机制在 MicroPython 中的绑定和使用方法。
|
* 熟悉 ESP-IDF 的 OTA 机制在 MicroPython 中的绑定和使用方法。正确调用 API 来设置启动分区和标记应用有效。
|
||||||
* 正确调用 API 来设置下一个启动分区和标记当前应用为有效。
|
|
||||||
* 确保在自检失败时,**不**调用标记有效的 API,以触发回滚机制。
|
|
||||||
|
|
||||||
### 6.6. 回滚机制
|
### 6.6. 回滚机制
|
||||||
|
|
||||||
* 依赖 ESP-IDF 提供的 OTA 回滚机制。新固件必须在启动后标记自身为有效,否则在多次重启后会自动回滚。
|
* 完全依赖 ESP-IDF 提供的 OTA 回滚机制。新固件必须在启动后标记自身为有效,否则会自动回滚。
|
||||||
* 在 MicroPython 应用层,如果自检失败,不标记有效,以触发回滚。
|
|
||||||
|
|
||||||
### 6.7. 错误处理与重试
|
### 6.7. 错误处理与重试
|
||||||
|
|
||||||
* 在平台和设备两侧,都需要实现完善的错误处理逻辑。
|
* **设备侧**: 实现文件级别的下载和校验重试。对于无法恢复的错误,立即上报 `FAILED` 状态并中止任务。
|
||||||
* 设备在请求文件时应包含重试次数,平台可以根据重试次数决定是否继续响应。
|
* **平台侧**: 实现任务级别的总超时管理。这是处理设备意外断电、失联等情况的关键机制。设备重启后无需保留升级状态,简化了设备端逻辑。
|
||||||
* 设备应能向平台准确报告错误类型和原因,包括文件系统操作失败、MD5 校验失败等。
|
|
||||||
* 平台应具备对 OTA 任务的总超时管理能力。
|
|
||||||
|
|
||||||
### 6.8. 安全性 (未来扩展)
|
### 6.8. 安全性
|
||||||
|
|
||||||
* **数字签名**: 尽管目前暂时忽略密钥管理,但强烈建议在未来实现清单文件的数字签名。这将有效防止恶意固件注入和篡改。平台使用私钥签名,设备使用硬编码的公钥验证。
|
* **数字签名**: 强烈建议尽快实现清单文件的数字签名。**没有数字签名,OTA 过程将面临严重的安全风险(如中间人攻击)**
|
||||||
|
,攻击者可能下发恶意固件。平台的公钥需要被硬编码到设备固件中,作为信任的根基。
|
||||||
* **LoRaWAN 安全**: 确保 LoRaWAN 的网络层和应用层密钥管理得当, 防止未经授权的设备加入网络或窃听数据。
|
* **LoRaWAN 安全**: 确保 LoRaWAN 的网络层和应用层密钥管理得当, 防止未经授权的设备加入网络或窃听数据。
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 7. 固件 OTA 升级流程描述
|
## 7. 固件 OTA 升级流程描述
|
||||||
|
|
||||||
整个固件 OTA(Over-The-Air)升级流程涉及三个主要参与者:**开发者 (User)**、**平台 (Platform)** 和 **区域主控设备 (Device)**。
|
### 阶段一:任务准备与下发
|
||||||
|
|
||||||
### 阶段一:任务准备(开发者与平台)
|
1. **上传与准备 (Developer -> Platform)**: 开发者上传固件包,平台解压、计算MD5、生成清单文件、创建升级任务。
|
||||||
|
2. **下发更新通知 (Platform -> Device)**: 平台向设备发送 `PrepareUpdateReq`。
|
||||||
|
|
||||||
1. **上传固件包 (User -> Platform)**:
|
### 阶段二:设备版本检查与准备
|
||||||
* 开发者上传固件包(.zip 文件)。
|
|
||||||
* 平台接收固件包,解压,分析文件,排除配置文件。
|
|
||||||
* 平台计算所有文件MD5,生成清单文件 (manifest.json)。
|
|
||||||
* 平台存储固件文件和清单文件,并记录 OTA 升级任务 (状态: 待开始)。
|
|
||||||
|
|
||||||
### 阶段二:设备接收并请求清单文件
|
1. **版本检查 (Device)**:
|
||||||
|
* **失败分支 (降级/同版本)**: 设备拒绝升级,上报 `FAILED` (ERR_VERSION_ROLLBACK) 或 `SUCCESS` (
|
||||||
1. **下发更新通知 (Platform -> Device)**:
|
SUCCESS_ALREADY_UP_TO_DATE),流程结束。
|
||||||
* 平台向设备发送 `PrepareUpdateReq` (包含 version, task_id, manifest_md5)。
|
* **成功分支**: 版本检查通过,设备继续。
|
||||||
2. **设备准备 (Device)**:
|
2. **设备准备 (Device)**:
|
||||||
* 设备接收请求,并尝试清空**非活动 OTA 分区**(如 /ota_b)。
|
* 设备清空非活动分区。
|
||||||
* **失败分支:** 如果清空分区失败,设备报告 `UpdateStatusReport` (FAILED_PREPARE),平台更新任务状态为 FAILED_PREPARE。
|
* **失败分支**: 上报 `FAILED` (ERR_PREPARE),流程结束。
|
||||||
* **成功分支:** 设备向平台发送 `RequestFile` (filename: "manifest.json")。
|
* **成功分支**: 设备发送 `RequestFile` 请求清单文件。
|
||||||
3. **清单文件传输 (Platform <-> Device)**:
|
|
||||||
* 平台收到请求,更新任务状态为进行中,并发送 `FileResponse` (manifest.json) 给设备。
|
|
||||||
* 设备写入清单文件。
|
|
||||||
4. **校验清单文件 (Device)**:
|
|
||||||
* **失败分支 1 (写入失败):** 报告 `UpdateStatusReport` (FAILED_FILE_RECEIVE)。
|
|
||||||
* **失败分支 2 (校验失败):** 计算 MD5 与 `PrepareUpdateReq` 的 MD5 不匹配,或 JSON 解析失败,报告
|
|
||||||
`UpdateStatusReport` (FAILED_MANIFEST_VERIFY)。
|
|
||||||
* **成功分支:** 设备解析清单文件,获取文件列表。
|
|
||||||
|
|
||||||
### 阶段三:文件循环下载和校验(核心 OTA 过程)
|
### 阶段三:文件循环下载和校验
|
||||||
|
|
||||||
设备循环请求清单中的每一个固件文件:
|
1. **清单文件传输与校验 (Platform <-> Device)**:
|
||||||
|
* 平台发送清单文件,设备接收并校验。
|
||||||
|
* **失败分支**: 上报 `FAILED` (ERR_MANIFEST_VERIFY),流程结束。
|
||||||
|
2. **固件文件循环 (Device <-> Platform)**:
|
||||||
|
* 设备逐个请求、下载、校验清单中的所有文件。
|
||||||
|
* **失败分支 (重试耗尽)**: 上报 `FAILED` (ERR_DOWNLOAD / ERR_VERIFY),流程结束。
|
||||||
|
|
||||||
1. **文件请求与响应 (Device <-> Platform)**:
|
### 阶段四:激活与最终状态
|
||||||
* **循环开始:** 设备发送 `RequestFile` (filename: "file_X.py")。
|
|
||||||
* 平台响应 `FileResponse` (file_X.py)。
|
|
||||||
2. **写入与校验 (Device)**:
|
|
||||||
* 设备接收文件,确保目录存在,写入非活动分区,并计算写入文件的 MD5。
|
|
||||||
* **失败分支 1 (写入失败):** 报告 `FAILED_FILE_RECEIVE`,中断下载循环。
|
|
||||||
* **失败分支 2 (校验失败/超时):**
|
|
||||||
* 设备增加 `retry_count`。
|
|
||||||
* **达到最大重试次数:** 报告失败 (`FAILED_FILE_VERIFY`/`FAILED_FILE_RECEIVE`),中断下载循环。
|
|
||||||
* **未达最大重试次数:** 重置定时器,重试发送 `RequestFile`。
|
|
||||||
|
|
||||||
### 阶段四:激活与最终状态(重启与回滚)
|
1. **激活重启 (Device)**: 所有文件成功下载后,设备配置启动分区并重启。
|
||||||
|
|
||||||
1. **激活准备 (Device)**:
|
|
||||||
* 所有文件下载并校验成功后,设备配置 OTA 分区为新固件分区,并自触发重启。
|
|
||||||
2. **新固件自检 (Device)**:
|
2. **新固件自检 (Device)**:
|
||||||
* 设备重启,加载新固件,执行自检。
|
* **成功分支**:
|
||||||
* **成功分支:**
|
* 设备标记自身为有效。
|
||||||
* 设备标记自身为有效 (`esp.ota_mark_app_valid_cancel_rollback()`)。
|
* 设备上报 `SUCCESS`。
|
||||||
* 设备报告 `UpdateStatusReport` (SUCCESS, current_version)。
|
* 平台更新任务状态为 `SUCCESS`。
|
||||||
* 平台更新任务状态为 SUCCESS,更新设备固件版本。
|
* **失败分支 (自检失败/未标记)**:
|
||||||
* **失败分支:**
|
* 设备等待底层机制自动回滚。
|
||||||
* 设备不标记自身为有效,报告 `UpdateStatusReport` (FAILED_ACTIVATE)。
|
* 设备回滚后,上报 `FAILED` (ERR_ROLLED_BACK)。
|
||||||
* 设备等待看门狗超时或系统自动回滚到旧固件。
|
* 平台更新任务状态为 `FAILED`。
|
||||||
* 设备报告 `UpdateStatusReport` (ROLLED_BACK, current_version: 旧版本)。
|
3. **总超时检查 (Platform)**: 如果在规定时间内未收到任何最终报告,平台将任务标记为 `FAILED` (ERR_TIMEOUT)。
|
||||||
* 平台更新任务状态为 ROLLED_BACK,更新设备固件版本为旧版本。
|
|
||||||
|
|
||||||
3. **总超时检查 (Platform)**:
|
|
||||||
* 如果平台长时间未收到最终状态,则标记任务状态为 FAILED_TIMEOUT。
|
|
||||||
|
|||||||
Reference in New Issue
Block a user