AI agent Failure Taxonomy：把失败从日志噪音变成可恢复系统

HTMLPAGE 团队

2026年5月28日

14 分钟阅读

很多团队把 agent 失败都记成 failed，结果只能反复重试。本文给出 failure taxonomy、恢复动作映射和上线治理清单。

#AI agent #Failure Taxonomy #错误恢复 #工程治理

AI agent 的失败不是单点问题，而是系统缺少失败语义。只要失败都写成 failed，平台就不知道该重试、追问、暂停还是转人工，最终会变成重试风暴和人工疲劳。

为什么 Failure Taxonomy 是运营指标，不只是开发细节

失败分类直接决定三个结果：

自动恢复率是否可提升
用户是否能得到可操作反馈
值班团队是否能快速定位责任边界

没有 taxonomy，所有 runbook 都会变成“先看看日志”。

一套够用的失败分层

failureType	典型信号	owner	默认动作
input_gap	缺字段、目标不完整	用户/业务	ask_user
policy_block	命中策略限制	平台治理	stop
tool_runtime	超时、429、连接断开	平台/基础设施	retry_with_backoff
plan_quality	计划偏题、遗漏关键步骤	agent orchestration	replan
handoff_required	高风险动作、证据不足	人工审核	human_review
unknown	无法归类	工程值班	quarantine

关键不是分得多细，而是每一类都绑定下一步动作和责任方。

失败动作映射比重试策略更重要

推荐先建立动作映射表，再做 retry 策略：

ask_user：必须输出缺失字段和问题模板
retry_with_backoff：限制次数与预算，不允许无限重试
replan：只允许在计划层重算，不直接重复工具调用
human_review：提交证据包，而不是一句“请人工处理”
quarantine：隔离异常 run，防止污染主队列

失败案例：把 policy_block 当作 tool_error

某团队把策略拦截误判为工具超时，导致 agent 连续 3 次重试同一高风险动作，触发更多告警。修复后，他们将策略拦截单独分类并直接 stop，告警量下降，人工值守压力显著降低。

上线 Checklist

每个失败类型有唯一代码和可读说明
每个失败类型都绑定 owner 与默认动作
retry 只作用于可恢复类失败
unknown 会自动入隔离队列并触发复盘
周报里有失败类型分布与趋势

结语

Failure taxonomy 的价值不在“分类很学术”，而在“把失败变成可执行动作”。只有失败可治理，agent 才能稳定放量。

延伸阅读：

相关标签

# AI agent # Failure Taxonomy # 错误恢复 # 工程治理

返回专题列表

相关文章推荐

Cursor 快捷键速查表（macOS/Windows）：从“会用”到“能提效”的 10 个工作流

Cursor 快捷键速查表（macOS/Windows）：从“会用”到“能提效”的 10 个工作流

把 Cursor 常用快捷键按任务分组（查代码、改代码、多文件、对话、审查与回滚），给出可直接照抄的工作流与最小回归清单，避免“快捷键背了也没变快”。

Cursor vs GitHub Copilot vs VS Code：怎么选、怎么搭配、怎么把风险关在笼子里

Cursor vs GitHub Copilot vs VS Code：怎么选、怎么搭配、怎么把风险关在笼子里

用“任务类型×风险×验收成本”的选择矩阵解释 Cursor/Copilot/VS Code 的差异，并给出一套可落地的协作工作流（范围闸门、最小回归集、回滚策略）。

AI 辅助调试与问题排查：让 AI 成为你的调试搭档

AI 辅助调试与问题排查：让 AI 成为你的调试搭档

深入探讨如何利用 AI 工具提升调试效率，包括错误信息分析、日志解读、性能问题定位、复杂 bug 排查等实战场景，构建 AI 驱动的调试工作流。