AI agent 平台常见误区是“并发越高越好”。实际系统里,并发上去后模型排队、工具拥塞、重试放大都会把延迟和成本一起推高。
三角关系:不能单点最优
| 目标 | 拉高会带来的副作用 |
|---|---|
| token 上限 | 单次推理更慢、成本上升 |
| 并发上限 | 队列抖动、超时率上升 |
| 低延迟目标 | 可能迫使降质或降上下文 |
治理重点不是“某项拉满”,而是找到业务可接受区间。
推荐的分层预算
- 会话级:每 run token budget
- 租户级:并发上限和突发额度
- 平台级:全局延迟与失败率护栏
把预算写进 admission control,比事后限流更稳。
排障顺序
- 先看排队时间占比,判断是否并发过载。
- 再看首轮 token 和上下文体积,判断是否输入过重。
- 再看工具调用链路,确认是否外部依赖导致慢。
- 最后才考虑换模型或裁剪能力。
失败案例:盲目扩并发导致平均延迟翻倍
某平台把并发阈值从 120 提到 240,吞吐短期提升,但 95 分位延迟翻倍,超时与重试导致成本失控。恢复方案是引入租户分级配额,并给高 token 任务单独队列。
治理 Checklist
- 有会话、租户、平台三层预算
- 并发扩容前先评估排队与工具瓶颈
- 高 token 任务与轻任务队列分离
- 看板同时看 p95 延迟、失败率、单会话成本
- 出现重试风暴时可快速降级并发
延伸阅读:


