← 回總覽

潜在内省(以及其他开源内省论文)— LessWrong

📅 2026-03-25 05:23 vgel 人工智能 1 分鐘 1167 字 評分: 91
LLM 内省 转向向量 Logit Lens 可解释性
📌 一句话摘要 这项研究表明,LLM 具备潜在的、依赖于提示词的内省能力。研究揭示,尽管模型在采样输出中经常否认,但它们实际上能够检测到激活中注入的概念,且这些信号可以通过 Logit Lens 分析检测出来。 📝 详细摘要 本文探讨了大语言模型(LLM)是否能够进行内省——具体来说,它们是否能检测到通过转向向量(steering vectors)注入其激活中的概念。使用 Logit Lens 方法,作者发现虽然模型在直接回答中经常否认内省,但当概念存在时,它们的内部概率分布(logits)显示出显著的变化。这些内省信号出现在中间层,但在最终层被抑制,这表明可能存在训练后的“藏拙”(san

📌 一句话摘要

这项研究表明,LLM 具备潜在的、依赖于提示词的内省能力。研究揭示,尽管模型在采样输出中经常否认,但它们实际上能够检测到激活中注入的概念,且这些信号可以通过 Logit Lens 分析检测出来。

📝 详细摘要

本文探讨了大语言模型(LLM)是否能够进行内省——具体来说,它们是否能检测到通过转向向量(steering vectors)注入其激活中的概念。使用 Logit Lens 方法,作者发现虽然模型在直接回答中经常否认内省,但当概念存在时,它们的内部概率分布(logits)显示出显著的变化。这些内省信号出现在中间层,但在最终层被抑制,这表明可能存在训练后的“藏拙”(sandbagging)或习得性否认。该研究强调了提示词框架在解锁这些潜在能力方面的重要性,并提供了证据表明 KV Cache 在对话中充当了持久的隐藏状态,挑战了 LLM 在 Token 之间缺乏内部状态的观点。

💡 主要观点

- 内省是一种潜在的、依赖于提示词的能力。 当被简单询问时,模型无法可靠地报告内省结果,但 Logit 的变化揭示了它们在内部能够检测到注入的概念,而特定的提示词框架可以显著放大这种能力。

内省信号在最终层被抑制。 使用 Logit Lens,作者观察到信号出现在中间层,但在最终层急剧减弱,这表明可能存在习得性否认或训练后的对齐效应,掩盖了内部表征。
KV Cache 充当了持久状态。 实验证明,LLM 可以在多轮对话中编码并访问 KV Cache 中的概念,这反驳了关于 LLM 在 Token 之间缺乏持久状态的误解。

💬 文章金句

- 如果模型能够检测到何时有概念被注入其激活中,那么合乎逻辑的是,它们也能够访问自身自然发生的激活。

  • Lindsey 报告的 Claude 通过采样获得的 20% 检测率,可能是模型内部内省信号的下限。
  • Transformer 在对话中是有状态的!有一种普遍的误解认为 LLM 在 Token 之间没有持久状态。我们的实验直接反驳了这一点。

📊 文章信息

AI 评分:91

来源:LessWrong

作者:vgel

分类:人工智能

语言:英文

阅读时间:10 分钟

字数:2301

标签: LLM, 内省, 转向向量, Logit Lens, 可解释性

阅读完整文章

查看原文 → 發佈: 2026-03-25 05:23:28 收錄: 2026-03-25 08:00:15

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。