很多 AI agent 平台在早期都习惯用一种很宽松的方式描述稳定性:最近整体还行、成功率没太差、用户偶尔重试一下也能过。这种说法在内部试验时还能用,一旦进入企业交付,就会立刻显得不够。因为客户真正要的不是“总体感觉还好”,而是更具体的问题:哪些任务保证几分钟内开始、哪些任务允许降级为草稿、哪些任务一旦超过等待窗口就必须转人工、平台每个月到底接受多少失败和多长时间的服务波动。
AI agent 之所以更需要 SLO 和 error budget,是因为它的“成功”本身就不是单一维度。一次 run 可能模型成功了,但人工 review 排队太久;工具调用成功了,但客户看到的 ETA 完全不可信;结果生成了,但副作用被 policy 挡住。你如果还只用一条 API 成功率去描述整个平台,系统的很多真实痛点都会被掩盖在平均数里。
所以 service tier 设计真正要做的,不是把平台装扮得更像云服务,而是把“哪类任务在什么条件下算交付成功”讲成一份能被产品、工程、支持和客户共同理解的承诺。没有这份承诺,error budget 最终只会变成技术团队自己看的内部报表。
建议配合 AI agent 可观测性与 Tracing、AI agent TTFT 与冷启动优化、AI agent Review Queue Aging 与 Escalation 和 AI agent Run Status、ETA 与 Needs Review 语义 一起看。
先别急着写 SLO 数字,先定义“什么叫成功”
| 任务类型 | 表面上的成功 | 更真实的成功定义 |
|---|---|---|
| 纯分析任务 | 模型返回了结果 | 结果在可接受时间内产出,且不需要额外人工兜底 |
| 高风险自动化任务 | 最终完成了 | 在副作用边界受控下完成,且未超出 review / 审批承诺 |
| 定时批处理任务 | 最终补跑成功了 | 在业务窗口内完成,过晚补跑不能算同样成功 |
| 人机协同任务 | 流程没报错 | 用户能看懂状态,并在合理时间内进入下一步 |
很多平台的 SLO 看起来漂亮,却依然被客户抱怨,本质上就是因为“成功”的定义对客户来说太假。
Error budget 最有用的地方,不是追责,而是逼平台做优先级
一旦 error budget 真存在,平台就必须回答一些以前可以模糊过去的问题:
- 预算已经快烧完时,优先保哪类任务
- 是继续放新功能,还是先把 review queue、TTFT 或连接器漂移修掉
- 哪些租户 / 套餐在 degrade 模式下仍能获得稳定边界
也就是说,error budget 的真正价值不是给团队添一条 KPI,而是逼平台停止幻想“所有问题都能同时解决”。它迫使系统承认:资源和稳定性都是有限的,必须先保住最关键的承诺。
Service tier 不只是价格档,而是不同的失败处理方式
很多团队把 tier 理解成资源分配,例如高级版并发更多、模型更强。可对 AI agent 而言,tier 还应决定在故障或退化时平台怎么对待这类任务。比如:
- 某些 tier 允许自动降级为草稿输出
- 某些 tier 在 review queue 老化时优先升级人工处理
- 某些 tier 在连接器漂移期间直接暂停高风险动作,不再假装还能自动完成
这类差异不是锦上添花,而是服务承诺的一部分。因为客户真正记住的往往不是你给了多少能力,而是出问题时你怎么处理他们。
一个常见事故:平台成功率看起来不错,客户却集体觉得“不稳定”
某团队的内容审核 agent 平台月度成功率长期在 97% 以上,工程团队对这个数字很满意。可客户满意度却持续下降,原因在于:
- 平均成功率不错,但高价值租户在高峰期 review 延迟明显
- 一些任务虽然最终完成,但常常晚于业务窗口
- 状态文案仍然模糊,客户根本不知道“这次慢”是因为 review、预算还是外部依赖
从技术统计看,平台并不差;从服务体验看,它已经在失去信任。最后团队修的不是单条成功率,而是把 SLO 分成了 TTFT、业务窗口、review SLA 和 side-effect success 四层。这个动作没有让系统立刻更快,但第一次让“平台到底哪里不稳”变得可讨论。
真正该先补的,是把退化模式纳入承诺,而不是只承诺正常模式
如果你现在只能先做一层,优先不是写一页漂亮的 SLO dashboard,而是先定义:当平台进入预算紧张、连接器漂移、review 积压或区域故障时,各类任务分别怎样退化。只承诺正常时有多好,很容易;真正难的是说明不正常时系统还会怎么保护用户。
AI agent 的稳定性从来不只是“能不能跑通”。更重要的是,在它开始变差的时候,平台有没有清楚地告诉用户:现在还能承诺什么,不能承诺什么,以及为什么。把这一层讲明白,SLO 才不只是技术团队的自我安慰。
延伸阅读:


