很多 AI agent 上线后只看两个数字:调用量和回答率。调用量高不代表有价值,回答率高也不代表任务完成。一个 agent 如果经常需要人工返工,或者只是在生成更多需要修改的内容,它可能没有真正节省时间。
产品成功指标要回答一个更实际的问题:agent 是否让业务流程更好。这个问题不能靠模型评分回答,必须回到真实任务:是否少返工、少等待、少错误、少成本,并且用户愿意继续用。
先给结论:成功指标要同时看质量、效率、成本和信任
| 维度 | 指标 |
|---|---|
| 质量 | 任务完成率、返工率、错误率 |
| 效率 | 节省时间、平均完成时长 |
| 成本 | 单任务成本、重试成本 |
| 信任 | 人工接管率、用户采纳率 |
| 覆盖 | 可自动处理的任务比例 |
只看生成次数,会误判 agent 价值。
一套最小指标体系
建议把指标分成三层:运行指标、质量指标、业务指标。
| 层级 | 指标 | 说明 |
|---|---|---|
| 运行 | 成功率、延迟、成本、工具失败率 | 系统是否稳定 |
| 质量 | 采纳率、返工率、接管率、格式错误率 | 输出是否可用 |
| 业务 | 节省时间、处理量、转化影响、满意度 | 是否真的有价值 |
运行指标只能说明系统在工作,质量和业务指标才说明它是否值得继续投入。
一、任务完成率比回答率重要
回答率表示 agent 给了结果,任务完成率表示这个结果真的被接受并推进流程。两者差异很大。
例如内容 agent 生成了文章,但编辑全部重写,回答率是 100%,任务完成率其实很低。
任务完成率要按任务定义“完成”。例如:
| agent 类型 | 完成定义 |
|---|---|
| 内容 agent | 草稿被编辑接受并进入发布流程 |
| 数据分析 agent | 报告被用户采纳并减少手动分析 |
| 客服 agent | 用户问题解决且无二次追问 |
| 研发 agent | 代码通过测试并被合并 |
不要用同一个“回答成功”指标衡量所有 agent。
二、人工接管率是边界信号
人工接管率高,不一定是坏事。它可能说明 agent 正确识别了高风险任务,也可能说明自动化能力不足。
要结合接管原因看:信息缺失、权限不足、结果不可信、用户主动要求、系统错误。
接管原因应该结构化:
{
"takeoverReason": "low_confidence | unsafe_action | missing_input | user_requested | tool_failed | quality_issue",
"taskId": "run_123",
"stepId": "plan_02"
}
如果接管率上升但主要原因是 unsafe_action,可能说明护栏生效;如果主要原因是 quality_issue,才说明能力不足。
三、返工率能揭示隐藏成本
agent 输出看起来很快,但如果后续人工修改时间很长,真实效率并没有提升。返工率可以按任务抽样记录:无需修改、小幅修改、大幅修改、重做。
这比“用户点了生成”更接近实际价值。
返工可以分级:
| 等级 | 定义 | 指标含义 |
|---|---|---|
| none | 直接可用 | 高质量输出 |
| minor | 小幅修改 | 可接受 |
| major | 大幅改写 | 节省有限 |
| redo | 重新做 | 失败样本 |
如果 major + redo 占比很高,调用量越高,隐藏成本越高。
四、节省时间要用基线对比
不要凭感觉说 agent 提效。先记录人工完成同类任务的平均时间,再比较 agent 辅助后的总耗时,包括审核和修改时间。
节省时间 = 人工基线时间 - (agent 运行时间 + 人工复核时间 + 返工时间)
这样才能知道 agent 是否真的减少工作量。
基线不要只测一次。建议按任务复杂度抽样:简单、中等、复杂。否则 agent 只在简单任务上节省时间,却被平均值掩盖。
| 复杂度 | 人工基线 | agent 辅助后 | 真实节省 |
|---|---|---|---|
| 简单 | 10 分钟 | 4 分钟 | 6 分钟 |
| 中等 | 45 分钟 | 28 分钟 | 17 分钟 |
| 复杂 | 120 分钟 | 115 分钟 | 5 分钟 |
这张表会告诉你:agent 应该优先覆盖哪些任务,不应该硬做哪些任务。
五、把指标接成看板,而不是散落在日志里
一个可用看板至少包含:
| 模块 | 看什么 |
|---|---|
| 总览 | 任务量、完成率、采纳率、成本 |
| 质量 | 返工率、格式错误率、低置信度比例 |
| 接管 | 接管率、接管原因、人工处理时长 |
| 成本 | 单任务成本、重试成本、模型分布 |
| 版本 | prompt / model / tool 版本对比 |
版本维度很关键。没有版本维度,你只知道指标变了,不知道是哪次变更造成的。
六、失败案例:调用量增长,但业务团队不愿继续用
一个 agent 上线后调用量很高,团队以为成功。但业务人员反馈它“能生成,但不好用”。复盘发现返工率高,关键字段经常缺失,人工复核时间没有下降。
后来团队增加任务完成率、返工率和采纳率指标,并按 prompt 版本拆分看板,才找到真正问题:输出结构不匹配工作流。修复后,调用量没有明显增加,但采纳率和节省时间上升了,这才是真正的改进。
七、指标 Checklist
- 是否区分回答率和任务完成率
- 是否记录人工接管原因
- 是否统计返工程度
- 是否有人工基线时间
- 是否计算单任务成本
- 是否看用户采纳率
- 是否把指标接入迭代优先级
- 是否按任务类型定义完成标准
- 是否按版本追踪指标变化
- 是否区分运行指标、质量指标和业务指标
- 是否用指标决定哪些任务不适合自动化
结语
AI agent 的成功不在于生成了多少内容,而在于是否减少等待、降低返工、控制成本、增强用户信任。指标设计越接近真实流程,团队越能判断 agent 值不值得继续投入,也能更早发现哪些任务根本不适合自动化。
延伸阅读:


