当 workflow 进入生产,最大的风险不是“当前版本不够好”,而是“改版时把在跑任务切断”。
版本迁移的核心原则
- 新旧版本并存,不做瞬时替换
- 在跑任务按原版本收敛
- 新任务按灰度策略进入新版本
这三条能避免大多数迁移事故。
迁移策略对比
| 策略 | 优点 | 风险 |
|---|---|---|
| big bang | 实施简单 | 风险最高 |
| dual-run | 对比充分 | 成本较高 |
| traffic-split | 渐进稳定 | 需完善观测 |
对 agent workflow,默认应优先 traffic-split + rollback。
失败案例:节点删除导致在跑任务中断
某团队删除了旧节点并上线新图,导致旧版本 run 无法恢复。修复后改为“节点软废弃 + 兼容适配层”,等旧 run 清空后再硬删除。
Checklist
- workflow 配置有明确版本号
- 在跑任务绑定固定版本
- 迁移期间支持双版本观测
- 回滚策略可在分钟级执行
- 节点废弃遵循软删除窗口
延伸阅读:


