AI Agent 记忆淘汰与摘要策略：上下文放不下时，什么该留下

HTMLPAGE 团队

2026年3月30日

14 分钟阅读

长会话 Agent 的问题从来不是“要不要记忆”，而是“哪些记忆该留下，哪些必须淘汰”。本文讲清记忆分层、淘汰规则、摘要策略和失败案例，帮助你控制上下文长度而不牺牲任务质量。

#AI Agent #Memory #Context Management #Summarization #工程化

很多团队以为记忆系统的核心是“存下来”，但真到线上后你会发现，难点其实是“删什么”。

因为上下文不是无限的。只要你的 Agent 进入长会话、多轮任务或跨天协作，就会面临一个问题：

$$ 上下文装不下全部历史时，系统如何保留真正重要的信息？ $$

这就是记忆淘汰与摘要策略的核心。

一、记忆不是一层，而是至少三层

如果不分层，你最后会把一堆短期噪音留在长期记忆里，反而污染后续任务。

某个写作 Agent 为了控制 token 成本，每 5 轮对话就自动做一次摘要，替换原始历史。

问题在于摘要模板只保留“用户目标”，没保留“不能做什么”。

结果后续一次任务中，系统忘了用户曾明确要求“不要对外发送邮件”，最终 Agent 又把邮件草稿推进到了发送环节。

这类问题说明：摘要不是压缩字数这么简单，而是在做信息重构。

建议优先保留以下 4 类：

而下面这些信息通常更适合淘汰：

常见可组合的策略有三类：

对工程系统来说，分槽摘要往往更稳。因为它把“偏好”“任务状态”“事实证据”拆开了，减少相互污染。

至少看这 5 个信号：

如果 token 省下来了，但 constraint_violation_rate 升高，那说明你的摘要策略在伤害系统可靠性。