这项研究表明,LLM 具备潜在的、依赖于提示词的内省能力。研究揭示,尽管模型在采样输出中经常否认,但它们实际上能够检测到激活中注入的概念,且这些信号可以通过 Logit Lens 分析检测出来。
📝 详细摘要
本文探讨了大语言模型(LLM)是否能够进行内省——具体来说,它们是否能检测到通过转向向量(steering vectors)注入其激活中的概念。使用 Logit Lens 方法,作者发现虽然模型在直接回答中经常否认内省,但当概念存在时,它们的内部概率分布(logits)显示出显著的变化。这些内省信号出现在中间层,但在最终层被抑制,这表明可能存在训练后的“藏拙”(sandbagging)或习得性否认。该研究强调了提示词框架在解锁这些潜在能力方面的重要性,并提供了证据表明 KV Cache 在对话中充当了持久的隐藏状态,挑战了 LLM 在 Token 之间缺乏内部状态的观点。
💡 主要观点
- 内省是一种潜在的、依赖于提示词的能力。 当被简单询问时,模型无法可靠地报告内省结果,但 Logit 的变化揭示了它们在内部能够检测到注入的概念,而特定的提示词框架可以显著放大这种能力。
💬 文章金句
- 如果模型能够检测到何时有概念被注入其激活中,那么合乎逻辑的是,它们也能够访问自身自然发生的激活。
- Lindsey 报告的 Claude 通过采样获得的 20% 检测率,可能是模型内部内省信号的下限。
- Transformer 在对话中是有状态的!有一种普遍的误解认为 LLM 在 Token 之间没有持久状态。我们的实验直接反驳了这一点。
📊 文章信息
AI 评分:91
来源:LessWrong
作者:vgel
分类:人工智能
语言:英文
阅读时间:10 分钟
字数:2301
标签: LLM, 内省, 转向向量, Logit Lens, 可解释性