横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后，我们做了第 7 个

📌 一句话摘要

本文横向拆解 Claude Code、Codex CLI 等六大 Agent 的上下文压缩策略，提炼出分层渐进、成本递增、增量摘要等共识原则，并介绍了作者团队面向云端多用户场景落地的四级水位线方案及存储分离、跨轮缓存等特化设计。

📝 详细摘要

文章首先横向对比了 Claude Code、Codex CLI、OpenCode、Cline、Cursor、Amp 和 MemGPT/Letta 七款主流 Agent 的上下文压缩策略，指出每种方案背后的设计哲学与取舍。随后，作者从这些实践中提炼出分层渐进、成本严格递增、增量摘要优于全量摘要、使用真实 token、用户消息有特权、保护近端、单调边界等接近共识的原则。在此基础上，文章详细介绍了作者团队在 MUR AI 产品中落地的四级水位线方案（Tier 0-3），按 60%、80%、95% 的 token 使用率阈值，依次执行零成本的 Snip、Prune 和 LLM 增量摘要。针对云端多用户场景，文章进一步阐述了存储分离（完整日志落盘，对话中只留截断版）、工具差异化（按信息密度分类处理）、跨轮缓存（ReplacementCache 保证压缩决策一致性）和多用户隔离四层特化设计。文章还讨论了关键决策背后的原因（如阈值设定、Snip 优于 Prune、增量摘要的优势），划定了任何 Tier 都不能触碰的红线，并介绍了压缩事件的可观测性设计。最后，作者指出上下文压缩的核心目标是保护模型注意力、对抗 Context Rot，而非单纯节省 token。

💡 主要观点

- 主流 Agent 的上下文压缩策略各具特色，背后是不同设计哲学的取舍。 Claude Code 采用五段流水线按成本递增排列；Codex CLI 优先保护近期用户消息原文；OpenCode 使用可逆隐藏与回放最后指令；Cline 支持自动与手动双模式；Cursor 在压缩后提供可回溯能力；Amp 则主张不压缩而换线程。

从各方案实践中可提炼出分层渐进、成本递增、增量摘要等共识原则。 系统应定义多个水位线，越接近上限手段越激进；便宜的操作（如字符串截断）先做，昂贵的（如 LLM 摘要）最后做；增量摘要只合并新增部分，避免全量重写导致的语义漂移和成本浪费。

作者团队提出的四级水位线方案（Tier 0-3）是一套可落地的渐进式压缩策略。 Tier 0（

云端多用户场景需要额外的特化设计，包括存储分离、工具差异化与跨轮缓存。 完整工具输出落盘，对话中只保留截断版与回取路径，解耦模型工作记忆与用户审计需求；按工具的信息密度分级处理，保护 Skill/Task 等关键输出；通过 ReplacementCache 将压缩决策持久化到 Redis，保证跨实例、跨重启的决策一致性，维护 Prompt Cache 命中率。

上下文压缩的核心目标是保护模型注意力，对抗 Context Rot，而非单纯节省 token。 当上下文窗口使用率超过 70% 时，模型的中段失忆和指令漂移会明显恶化。压缩系统应充当信号工程师，将无关信息降为占位符，让模型将注意力集中在当前任务的关键信息上。

💬 文章金句

- Context 压缩的目标从来不是省 token。省钱是顺带的。它要解决的问题是保护模型的注意力。

一个合格的压缩系统应该是一个信号工程师——把无关紧要的工具输出降为占位符，让模型不用扫过它们；把老的 assistant 文本裁短，让最近的对话不被淹没；把历史合并成结构化摘要，让模型用事实思考而不是用文本回忆。
压缩系统最大的事故不是压不够，而是压错东西。

📊 文章信息

AI 初评：91

来源：腾讯技术工程

作者：腾讯技术工程

分类：人工智能

语言：中文

阅读时间：35 分钟

字数：8644

标签： AI Agent, 上下文工程, LLM, AI 编程, 工程实践

阅读完整文章

横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后，我们做了第 7 个

🤖 問 AI