所有真正进入企业环境的 AI agent 平台,迟早都会碰到例外。某个客户暂时必须放宽一条风控规则,某个地区在过渡期需要保留旧连接方式,某个高价值流程因为历史包袱不得不允许一段时间的特殊处理。问题从来不是“能不能有例外”,而是平台有没有能力让例外停留在例外的位置。很多系统并不是被错误的默认规则拖垮,而是被越来越多没人说得清为什么还存在的豁免一点点蚕食掉治理底线。
这类风险之所以隐蔽,是因为每一个例外在它被提出的当下往往都很合理。支持想先救回客户,交付团队想先让流程跑通,产品想先保住上线节奏,客户成功想先降低流失风险。每个决策单独看都能解释,问题在于如果这些例外散落在工单、聊天、表格、临时脚本和口头确认里,平台最后就不再知道:到底哪些能力是正式支持的,哪些只是临时放行的,以及哪些临时放行其实早已变成长期常态。
所以 policy exception register 的价值,不是让治理更官僚,而是把例外重新放回一个能被看见、被追踪、被到期回收的系统里。没有 expiry governance,平台最难修复的往往不是默认规则,而是那些已经没人敢动的历史例外。
建议配合 AI agent Policy Engine 规则分层、AI agent Policy Dry-Run 与 Blast Radius Analysis、AI agent Tenant Config Bundle 与 Override Governance 和 AI agent Plan Tier Entitlement 与 Tool Gating 一起看。
先分清:产品配置、租户 override 和 policy exception 不是同一个东西
| 对象 | 为什么会存在 | 最容易出问题的地方 |
|---|---|---|
| 正式产品配置 | 代表平台支持的公开能力边界 | 被临时需求拉成过度复杂的配置矩阵 |
| 租户 override | 某个租户在支持范围内的差异化参数 | 没有版本和 owner,久而久之没人敢改 |
| policy exception | 暂时偏离正式治理底线的豁免 | 没有到期和回收机制,最后变成永久例外 |
很多团队会把这三件事混在一起,结果就是系统根本不知道自己在表达什么。一个明明应该短期审批通过的豁免,被写成了长期配置;一个本来属于产品 tier 的能力,被当成支持同学手工开给特定客户的例外;一个已经过期的过渡方案,因为没有人负责回收,继续在生产环境里活了两年。
一个 exception register 的核心价值,是让平台始终回答得出“为什么这条线被跨过去了”
真正有用的 exception register,至少要把下面几件事绑定在同一条记录上:
- 这条例外具体豁免了什么规则,而不是只写一句“特殊处理”
- 为什么现在必须豁免,它解决的是哪一个业务阻塞
- 谁批准、谁负责、谁要在到期前回看
- 例外的有效期和退出条件是什么
- 平台为了降低额外风险,加了哪些 compensating control
如果记录里没有退出条件,例外就几乎一定会长期存在。因为现实世界里,取消例外永远比批准例外更费力:取消需要沟通、需要改系统、需要承担客户或内部团队的不适感;而让它继续待着,看起来短期里谁都不用冒险。
Expiry governance 最重要的,不是提醒,而是让过期真的会产生后果
不少团队已经知道例外要加过期时间,所以在表格里也写了一个 expiry date。问题是如果到期后系统不会发生任何变化,这个日期最后只会变成一种看起来很认真、实际上没人处理的文本字段。更成熟的做法通常是让过期真正影响系统:
- 到期前必须重新审批,否则例外自动失效或进入只读观察态
- 高风险例外到期后若未续签,相关动作自动降级为 review required
- 例外长期续签时必须触发更高层级复核,逼团队讨论这是不是已经该升级成正式产品能力
只有当过期不是一条日历事件,而是能推动动作的系统信号,expiry governance 才不会沦为提醒功能。
一个常见事故:临时白名单为了救客户,最后把治理边界一起废掉
某团队的 AI agent 平台为了帮一个大客户赶在季度结算前上线,临时放宽了一条外发策略的域名限制。最初的约定很清楚:这是一个三周的过渡豁免,等客户的正式域名和审批链完善后就收回。问题是这个例外既没有进入统一 register,也没有设置系统级到期。三周后团队忙于别的上线,没人回收。几个月后,新的客户上线时,支持同学为了提速直接复用了这条“之前已经开过”的例外路径。
最后平台面对的不是单一配置错误,而是治理语义已经崩了:谁也说不清这条规则到底算不算默认支持、哪些客户还在沿用、以及一旦收回会影响多少流程。真正修复后,团队不是单纯删规则,而是先建立 exception register,把现有例外逐条登记 owner、风险和退出条件,再分批回收到正式配置或彻底下线。
如果你现在只能先补一层,先让任何例外都不可能“没有到期”
很多平台会先想着补更复杂的审批流、更漂亮的治理后台,当然都值得做。但更基础也更有效的一步,是让系统不允许出现无 owner、无原因、无 expiry 的 policy exception。因为只要这三件事里缺一件,例外几乎注定会悄悄变长寿,而长寿例外最终都会开始侵蚀默认治理底线。
AI agent 平台真正成熟的标志,不是没有例外,而是每一个例外都能被解释、被追踪、被到期回收。例外不可怕,没人知道它为什么还活着,才可怕。
延伸阅读:


