← 回總覽

Harness 刚火,可能就要成为过去时了

📅 2026-04-13 08:00 腾讯科技 人工智能 2 分鐘 1406 字 評分: 92
AI Agent 长上下文 推理偏移 Harness Engineering 模型内部机制
📌 一句话摘要 本文深度解读了 Yandex 关于大模型在长上下文中会主动「偷懒」的论文《Reasoning Shift》,并结合 Anthropic 的情绪向量研究,探讨了从模型内部机制而非外部工程脚手架解决 Agent 长程任务退化的可能性。 📝 详细摘要 文章围绕 Yandex 研究员 Gleb Rodionov 的论文《Reasoning Shift》展开,该论文揭示了大型语言模型在长上下文环境中性能退化的新机制:模型并非因信息过载而「迷失」,而是主动进行「认知压缩」,减少思考深度以节省认知资源。实验表明,即使模型能清晰区分信号与噪声,推理长度和准确性仍会随上下文长度线性下降,且推

📌 一句话摘要

本文深度解读了 Yandex 关于大模型在长上下文中会主动「偷懒」的论文《Reasoning Shift》,并结合 Anthropic 的情绪向量研究,探讨了从模型内部机制而非外部工程脚手架解决 Agent 长程任务退化的可能性。

📝 详细摘要

文章围绕 Yandex 研究员 Gleb Rodionov 的论文《Reasoning Shift》展开,该论文揭示了大型语言模型在长上下文环境中性能退化的新机制:模型并非因信息过载而「迷失」,而是主动进行「认知压缩」,减少思考深度以节省认知资源。实验表明,即使模型能清晰区分信号与噪声,推理长度和准确性仍会随上下文长度线性下降,且推理能力越强的模型,这种「偷懒」倾向越明显。作者回顾了行业为应对长上下文问题搭建的三层工程脚手架(RAG、上下文工程、Harness),指出这些外部约束治标不治本。文章进一步引入 Anthropic 关于模型内部情绪向量(如 desperate, calm)因果性驱动行为的研究,提出通过探测和干预模型内部状态(如注入 calm 向量)来从根本上抑制认知压缩,从而可能让复杂的 Harness Engineering 变得不再必要。

💡 主要观点

- 长上下文导致模型性能退化的核心机制是「认知压缩」,而非信息检索失败。 Yandex 论文通过实验证明,即使模型能完美识别无关信息,其推理长度和准确性仍会系统性下降,这是模型为节省认知资源而主动减少思考深度的结果。

模型的推理能力越强,在拥挤的认知空间中「偷懒」的倾向越严重。 实验数据显示,从基础版到强推理版的模型,其推理长度在长上下文下的压缩幅度随能力增强而显著增大,表明当前强化推理的训练方式可能加剧了这一问题。
通过干预模型内部情绪状态,可能从根源上解决认知压缩,从而颠覆外部约束工程。 Anthropic 的研究表明,模型内部存在功能性情绪向量(如 desperate, calm),并能因果性地驱动行为。通过探测和注入特定向量(如 calm),可能直接抑制模型走捷径的冲动,使其在长上下文中保持深度思考,这为绕过复杂的 Harness 工程提供了新路径。

💬 文章金句

- 模型在长上下文里不是被噪声干扰了,也不是找不到信息。它做了一个主动的认知决策:少想一些。

  • 每多塞进一个 Token 的上下文,都在对推理深度征收一笔隐性税。
  • 推理能力被训得越强,偷懒幅度越深。
  • Harness 从外面管住了跳步的后果,但病因深植在模型内部。
  • 吞没 harness 的,可能是一个更平静、更耐心的模型。

📊 文章信息

AI 初评:92

来源:腾讯科技

作者:腾讯科技

分类:人工智能

语言:中文

阅读时间:21 分钟

字数:5046

标签: AI Agent, 长上下文, 推理偏移, Harness Engineering, 模型内部机制

阅读完整文章

查看原文 → 發佈: 2026-04-13 08:00:00 收錄: 2026-04-13 16:00:28

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。