很多团队第一次把 Agent 放到真实业务里,最先崩的不是准确率,而是账单。
原因很简单:Agent 的成本不是一笔,而是一串。
- 上下文越拼越长,token 成本上涨
- 工具重试多了,外部 API 成本上涨
- 并发多 Agent 编排时,单次 run 可能分裂成多次模型调用
- 为了排障做回放,又多了一层额外消耗
如果你不先做预算治理,系统越成功,成本压力通常越大。
建议搭配阅读 AI Agent 并发与可靠性、多 Agent 协作架构、AI Agent 记忆管理实战 和 AI Agent 评估框架完全指南。
一、Agent 成本到底由哪些部分构成
| 成本项 | 常见来源 | 最容易失控的点 |
|---|---|---|
| 模型成本 | 输入 token、输出 token | 长上下文、反复重试 |
| 工具成本 | 第三方 API、数据库、检索服务 | 调用次数失控 |
| 并发成本 | 多分支执行、并行 Agent | 没有预算上限 |
| 运维成本 | 回放、日志、观测、评估 | 失败 run 过多 |
真正难控的不是单次调用,而是系统为了“更稳”不断加保险后,隐性成本层层叠加。
二、预算应该分层,而不是只看月账单
推荐至少拆成三层预算:
- 单次 run 预算:一次任务最多花多少 token 和工具调用
- 单用户预算:一个用户在某时间窗口内最多消耗多少资源
- 全局服务预算:高峰期总成本上限与降级阈值
如果没有前两层,你最终只能在月底看到“这个月超支了”,却不知道该限制谁。
三、典型失败案例:并行优化把成本炸穿了
某个研究型 Agent 为了提升完成率,把原来的串行工具调用改成三个分支并行:检索、摘要、比较。
短期看结果很好:
- 任务成功率提升 8%
- 平均耗时下降 20%
但一周后发现:
avg_cost_per_run涨了 2.4 倍- 高峰期预算超限率从 3% 涨到 19%
- 用户长会话场景的上下文成本快速堆积
原因不是并行本身有错,而是并行没有配预算护栏。
修复方法:
- 给单次 run 加 token 上限
- 给并行分支加最大数量限制
- 高价值任务允许并行,低价值任务自动降级为串行
- 工具失败后优先返回部分结果,而不是无限重试
四、最值得先做的预算护栏
| 护栏 | 作用 | 推荐做法 |
|---|---|---|
max_tokens_per_run | 防止上下文无限膨胀 | 进入组装上下文前先裁剪 |
max_tool_calls_per_run | 防止工具调用风暴 | 超限后降级 |
max_parallel_branches | 防止并行爆单 | 只给高价值任务开放 |
max_retry_budget_ms | 防止重试把失败放大 | 超过预算直接失败或人工接管 |
五、上线后至少看这 6 个成本指标
avg_cost_per_runp95_cost_per_runavg_tool_callsbudget_exceed_rateretry_cost_ratiocost_per_success
其中 cost_per_success 特别重要。它比单看 token 总量更能反映系统是否值得继续扩展。
六、AI Agent 成本治理清单
- 单次 run 有明确预算上限
- 并行分支有数量限制
- 重试有时间预算,不是无限补救
- 指标能区分“花得多”和“花得值”
- 高成本失败样本优先进入回放分析


