潜在内省（以及其他开源内省论文）— LessWrong

📌 一句话摘要

这项研究表明，LLM 具备潜在的、依赖于提示词的内省能力。研究揭示，尽管模型在采样输出中经常否认，但它们实际上能够检测到激活中注入的概念，且这些信号可以通过 Logit Lens 分析检测出来。

📝 详细摘要

本文探讨了大语言模型（LLM）是否能够进行内省——具体来说，它们是否能检测到通过转向向量（steering vectors）注入其激活中的概念。使用 Logit Lens 方法，作者发现虽然模型在直接回答中经常否认内省，但当概念存在时，它们的内部概率分布（logits）显示出显著的变化。这些内省信号出现在中间层，但在最终层被抑制，这表明可能存在训练后的“藏拙”（sandbagging）或习得性否认。该研究强调了提示词框架在解锁这些潜在能力方面的重要性，并提供了证据表明 KV Cache 在对话中充当了持久的隐藏状态，挑战了 LLM 在 Token 之间缺乏内部状态的观点。

💡 主要观点

- 内省是一种潜在的、依赖于提示词的能力。 当被简单询问时，模型无法可靠地报告内省结果，但 Logit 的变化揭示了它们在内部能够检测到注入的概念，而特定的提示词框架可以显著放大这种能力。

内省信号在最终层被抑制。 使用 Logit Lens，作者观察到信号出现在中间层，但在最终层急剧减弱，这表明可能存在习得性否认或训练后的对齐效应，掩盖了内部表征。

KV Cache 充当了持久状态。 实验证明，LLM 可以在多轮对话中编码并访问 KV Cache 中的概念，这反驳了关于 LLM 在 Token 之间缺乏持久状态的误解。

💬 文章金句

- 如果模型能够检测到何时有概念被注入其激活中，那么合乎逻辑的是，它们也能够访问自身自然发生的激活。

Lindsey 报告的 Claude 通过采样获得的 20% 检测率，可能是模型内部内省信号的下限。
Transformer 在对话中是有状态的！有一种普遍的误解认为 LLM 在 Token 之间没有持久状态。我们的实验直接反驳了这一点。

📊 文章信息

AI 评分：91

来源：LessWrong

作者：vgel

分类：人工智能

语言：英文

阅读时间：10 分钟

字数：2301

标签： LLM, 内省, 转向向量, Logit Lens, 可解释性

阅读完整文章

潜在内省（以及其他开源内省论文）— LessWrong

🤖 問 AI