AI agent SLO、Error Budget 与 Service Tier Design:自动化系统怎样定义稳定性承诺,不被“看起来能跑”骗了

HTMLPAGE 团队
16 分钟阅读

AI agent 的稳定性不只是一条成功率曲线。本文讲清 SLO、error budget、service tier 与 degraded mode,帮助团队把“能跑”变成有边界、有优先级的服务承诺。

#AI agent #SLO #Error Budget #工程实践

很多 AI agent 平台在早期都习惯用一种很宽松的方式描述稳定性:最近整体还行、成功率没太差、用户偶尔重试一下也能过。这种说法在内部试验时还能用,一旦进入企业交付,就会立刻显得不够。因为客户真正要的不是“总体感觉还好”,而是更具体的问题:哪些任务保证几分钟内开始、哪些任务允许降级为草稿、哪些任务一旦超过等待窗口就必须转人工、平台每个月到底接受多少失败和多长时间的服务波动。

AI agent 之所以更需要 SLO 和 error budget,是因为它的“成功”本身就不是单一维度。一次 run 可能模型成功了,但人工 review 排队太久;工具调用成功了,但客户看到的 ETA 完全不可信;结果生成了,但副作用被 policy 挡住。你如果还只用一条 API 成功率去描述整个平台,系统的很多真实痛点都会被掩盖在平均数里。

所以 service tier 设计真正要做的,不是把平台装扮得更像云服务,而是把“哪类任务在什么条件下算交付成功”讲成一份能被产品、工程、支持和客户共同理解的承诺。没有这份承诺,error budget 最终只会变成技术团队自己看的内部报表。

建议配合 AI agent 可观测性与 TracingAI agent TTFT 与冷启动优化AI agent Review Queue Aging 与 EscalationAI agent Run Status、ETA 与 Needs Review 语义 一起看。

先别急着写 SLO 数字,先定义“什么叫成功”

任务类型表面上的成功更真实的成功定义
纯分析任务模型返回了结果结果在可接受时间内产出,且不需要额外人工兜底
高风险自动化任务最终完成了在副作用边界受控下完成,且未超出 review / 审批承诺
定时批处理任务最终补跑成功了在业务窗口内完成,过晚补跑不能算同样成功
人机协同任务流程没报错用户能看懂状态,并在合理时间内进入下一步

很多平台的 SLO 看起来漂亮,却依然被客户抱怨,本质上就是因为“成功”的定义对客户来说太假。

Error budget 最有用的地方,不是追责,而是逼平台做优先级

一旦 error budget 真存在,平台就必须回答一些以前可以模糊过去的问题:

  • 预算已经快烧完时,优先保哪类任务
  • 是继续放新功能,还是先把 review queue、TTFT 或连接器漂移修掉
  • 哪些租户 / 套餐在 degrade 模式下仍能获得稳定边界

也就是说,error budget 的真正价值不是给团队添一条 KPI,而是逼平台停止幻想“所有问题都能同时解决”。它迫使系统承认:资源和稳定性都是有限的,必须先保住最关键的承诺。

Service tier 不只是价格档,而是不同的失败处理方式

很多团队把 tier 理解成资源分配,例如高级版并发更多、模型更强。可对 AI agent 而言,tier 还应决定在故障或退化时平台怎么对待这类任务。比如:

  • 某些 tier 允许自动降级为草稿输出
  • 某些 tier 在 review queue 老化时优先升级人工处理
  • 某些 tier 在连接器漂移期间直接暂停高风险动作,不再假装还能自动完成

这类差异不是锦上添花,而是服务承诺的一部分。因为客户真正记住的往往不是你给了多少能力,而是出问题时你怎么处理他们。

一个常见事故:平台成功率看起来不错,客户却集体觉得“不稳定”

某团队的内容审核 agent 平台月度成功率长期在 97% 以上,工程团队对这个数字很满意。可客户满意度却持续下降,原因在于:

  • 平均成功率不错,但高价值租户在高峰期 review 延迟明显
  • 一些任务虽然最终完成,但常常晚于业务窗口
  • 状态文案仍然模糊,客户根本不知道“这次慢”是因为 review、预算还是外部依赖

从技术统计看,平台并不差;从服务体验看,它已经在失去信任。最后团队修的不是单条成功率,而是把 SLO 分成了 TTFT、业务窗口、review SLA 和 side-effect success 四层。这个动作没有让系统立刻更快,但第一次让“平台到底哪里不稳”变得可讨论。

真正该先补的,是把退化模式纳入承诺,而不是只承诺正常模式

如果你现在只能先做一层,优先不是写一页漂亮的 SLO dashboard,而是先定义:当平台进入预算紧张、连接器漂移、review 积压或区域故障时,各类任务分别怎样退化。只承诺正常时有多好,很容易;真正难的是说明不正常时系统还会怎么保护用户。

AI agent 的稳定性从来不只是“能不能跑通”。更重要的是,在它开始变差的时候,平台有没有清楚地告诉用户:现在还能承诺什么,不能承诺什么,以及为什么。把这一层讲明白,SLO 才不只是技术团队的自我安慰。

延伸阅读: