很多 AI agent 团队在早期都会有一种错觉:只要内部 prompt、状态机和调度器足够稳,系统就不会轻易出大问题。可一旦平台真的接入足够多的外部系统,最脆弱的部分往往不是模型本身,而是那些你并不拥有、却又必须依赖的连接器边界。合作方 API 悄悄改了字段,登录页多了一层跳转,表单的 DOM 结构换了一版,某个 webhook payload 新增了一个默认值,平台表面上看起来还在线,实际上已经开始在客户环境里慢慢偏离预期。
更麻烦的是,这类 drift 很少会像正式宕机那样立刻尖叫。它通常先表现为局部失败、异常重试、奇怪的空值和偶发的人工接管。于是团队很容易把它误判成“最近流量复杂了”“客户环境比较特殊”或者“模型这两天状态不稳定”,直到客户投诉集中出现时,才发现问题早就不是一两次临时异常,而是连接器契约已经失真。
所以 connector contract drift 真正要做的,不是等失败后补兼容,而是让系统尽早知道“外部世界已经不是自己以为的样子了”。没有这层提前感知,再好的恢复机制也只能在后面不断擦屁股。
建议配合 AI agent 工具 Schema 演进兼容、AI agent 工具能力协商与环境契约、AI agent 多执行环境路由 和 AI agent 错误分类与恢复策略 一起看。
先别把 drift 理解成“接口坏了”
| Drift 类型 | 常见表现 | 最容易被误判成 |
|---|---|---|
| API Schema Drift | 字段改名、必填项变化、枚举扩展 | 某次调用参数没传对 |
| UI Contract Drift | 按钮位置变化、页面流程改变、DOM 选择器失效 | 浏览器 runner 偶发超时 |
| Semantic Drift | 相同字段仍存在,但含义变了 | 模型抽取或判断不稳定 |
| Policy Drift | 对方限流、权限、审批路径变化 | 某租户配置特殊 |
这张表的关键在于提醒团队:不是所有 drift 都会表现成明确报错。很多 drift 最麻烦的地方,是它看起来还“有点能用”。
真正有价值的不是报警,而是 probe
不少平台的做法是等真实任务报错后再收敛异常指标。这个办法对大规模平台远远不够,因为真实任务意味着你已经把客户放进了实验里。更稳的做法是给关键连接器单独做 probe:
- API 连接器定期做低风险 schema check
- 浏览器连接器跑只读登录与页面骨架探测
- webhook 和 callback 对关键字段做签名和兼容性验收
probe 的目的不是模拟全部业务,而是尽早回答:这个连接器今天还是不是昨天那份契约。只要这件事能提前知道,后面的限流、降级和通知都还能在客户真正受影响之前发生。
兼容性信号必须能进入 rollout 决策,而不是只待在监控面板里
平台里最浪费的一种努力,就是 drift signal 明明已经存在,却只停留在 observability 仪表盘里。工程团队能看到“某个连接器成功率下滑”,但调度器、发布系统和客服并不会因此改变行为。结果是:
- 新租户还在继续接入这个连接器
- 自动化任务仍照常进入高风险路径
- 支持团队直到投诉出现才被动响应
真正成熟的做法,是让 drift signal 有资格影响 rollout 和 admission:
- 兼容性探测异常时,暂停新租户放量
- 某类 drift 超阈值时,把高风险动作自动降级为草稿或 review required
- 同时给运营和支持团队生成明确的风险上下文
这样 signal 才不是“知道了”,而是“开始改变系统行为了”。
一个典型事故:页面还打得开,但业务语义已经变了
某团队的浏览器 agent 负责帮客户在第三方采购平台创建补货单。某次平台改版后,页面结构变化不大,按钮也还在,自动化流程看起来仍能走通。问题在于:
- 原来的“建议补货量”字段被改成“最小采购批量”
- runner 仍按照旧字段语义填写
- 页面不会报错,提交也成功
- 但下游采购数量开始系统性偏大
这就是最危险的 drift:形式兼容了,语义却漂了。团队最后不是去改一个 selector,而是补了 contract probe,把关键字段的语义样本也纳入验证。这个事故说明,drift detection 不能只看“能不能调用成功”,还要看“成功之后还是不是原来那件事”。
真正该先补的,是连接器风险分层
如果你现在只能先做一层,优先别去追求覆盖所有连接器,而是先给关键连接器做风险分层:哪些连接器一旦 drift 会直接影响外发、扣费、正式写入或客户承诺,优先给它们配置 probe、compatibility score 和 rollout gate。只要所有连接器仍被当成同一种风险,平台就很难在有限精力下真正守住最关键的边界。
AI agent 接外部系统越多,真正决定平台稳不稳的,越不是自己内部逻辑有多优雅,而是你有没有足够早地发现“别人已经悄悄改了规则”。等客户先发现,成本通常就已经高了。
延伸阅读:


