TACO 是一个无需训练、即插即用的终端智能体自进化观测压缩框架,让 Agent 在真实交互轨迹中学会过滤低价值终端输出,同时保留关键行动线索,从而提升长程任务成功率和 Token 效率。
📝 详细摘要
本文介绍了由曼彻斯特大学、北京航空航天大学、香港科技大学及 MAP 研究团队联合提出的 TACO 框架。针对 CLI Agent 在长程任务中面临的「上下文变脏」问题——即大量低价值终端输出(如安装日志、编译流水、下载进度)堆满上下文窗口,淹没关键决策线索,TACO 提出了一种无需训练的自进化规则引擎。其核心机制包括:Terminal Output Compression(基于规则压缩)、Intra-Task Rule Set Evolution(任务内动态纠偏,生成新规则并检测过度压缩)、Global Rule Pool Evolution(跨任务沉淀有效规则)。实验表明,在 TerminalBench 1.0/2.0 及 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 等多个基准上,TACO 在提升任务成功率的同时降低了 Token 消耗。论文还通过 Retention 指标证明了规则池的收敛性,并通过案例展示了 TACO 如何将 10,000 字符的安装日志压缩至 73 字符,同时保留编译参数、符号地址等关键线索。
💡 主要观点
- 长程 CLI Agent 的核心瓶颈不是上下文窗口不够大,而是上下文在多轮交互中变得越来越脏。 安装日志、编译输出等低价值反馈堆满上下文,淹没关键线索。实验显示,在 Qwen3-Coder-480B 等模型的轨迹中,低价值冗余占比达 24.6%-44.1%。
💬 文章金句
- 问题不一定是上下文窗口不够大,而是上下文在多轮交互中变得越来越 '脏'。
- terminal observation compression 的难点不只是 '压短',而是判断:哪些内容可以安全过滤,哪些信息必须保留。
- TACO 的关键不是 '压得更狠',而是 self-evolving:它会在真实交互轨迹中观察哪些规则有效、哪些规则可能压缩过度,并把可复用的规则沉淀到全局规则池中。
- 让 Agent 学会丢掉无效观察,才能让它在长程任务中走得更稳。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3877
标签: TACO, CLI Agent, 上下文压缩, 自进化, 终端智能体