多数 agent 回归不是来自“某个东西坏了”,而是来自“改动不同步”。模型升级了,工具 schema 没跟;prompt 调整了,评测集没更新。这就是为什么要把 Prompt、Tool、Model 当成同一列发布列车。
三个版本必须同号治理
| 维度 | 版本对象 | 常见回归 |
|---|---|---|
| Prompt | 约束、格式、策略 | 输出结构漂移 |
| Tool | schema、权限、超时 | 调用失败、参数错位 |
| Model | 能力、成本、延迟 | 行为风格变化 |
推荐把三者组合成 release bundle,例如 rb-2026.05.28-03。
发布流程:先验收 bundle,再灰度流量
- 生成候选 bundle(Prompt+Tool+Model)。
- 跑离线评测与关键回归集。
- 进入小流量灰度,监控 FRHR、失败率、人工接管率。
- 达标后放量,不达标自动回滚到上一个 bundle。
失败案例:模型升级导致审批误判
某团队只升级模型版本,未同步审批提示词里的“禁止自动批准”约束。结果首日出现越权建议。修复动作是把审批边界从 prompt 迁到 policy 层,并将 bundle 发布门禁加上高风险场景回归集。
回滚策略
- 只回模型:适用于延迟和成本问题
- 回整个 bundle:适用于行为语义变化
- 熔断到人工:适用于高风险流程
高风险场景建议默认支持“一键 bundle 回滚”。
发布 Checklist
- Prompt/Tool/Model 有统一 bundle 编号
- 每次发布都有对照基线与 diff 说明
- 高风险场景有专门回归集
- 灰度阶段监控 FRHR 与人工接管率
- 支持 bundle 级回滚而非单点回滚
延伸阅读:


