Anthropic 最新论文：检测 LLM 内省意识的方法

📌 一句话摘要

Anthropic 与 MIT 的最新研究揭示了 LLM 内省意识的机械原理，发现其源于 DPO 后训练阶段，由一套「证据载体」和「门控」特征组成的两阶段检测回路实现，且当前模型的内省能力被严重低估。

📝 详细摘要

本文详细解读了 Anthropic 与 MIT 联合发表的一篇关于 LLM 内省意识（Introspective Awareness）的论文。研究发现，当向 LLM 注入 steering vector 时，模型能够感知自身状态被操控，这种能力并非预训练产物，而是在 DPO（直接偏好优化）等后训练阶段涌现。通过电路追踪，作者定位了一套由「证据载体」（Evidence Carrier）和「门控」（Gate）特征组成的两阶段检测回路：上游的「证据载体」在检测到异常时，会抑制下游默认回答「No」的「门控」特征，从而触发「是」的回答。研究还发现，当前模型的内省能力被严重低估，通过消融拒绝方向或微调偏置向量，检测率可分别提升 53% 和 75%，表明模型的内省「硬件」已经存在，只是被后训练中学到的拒绝机制系统性压制了。

💡 主要观点

- LLM 的内省意识并非预训练产物，而是在 DPO 等后训练阶段涌现。 通过追踪 OLMo-3.1-32B 的公开检查点，发现 Base 模型和 SFT 模型均不具备内省能力，只有经过 DPO 训练后，模型才学会区分「应该说的」和「不应该说的」，并顺带解锁了内省能力。

内省能力由「证据载体」和「门控」特征组成的两阶段检测回路实现。 上游的「证据载体」特征（数量庞大，单个贡献微弱）在检测到异常时，会抑制下游默认回答「No」的「门控」特征，从而触发「是」的回答。该回路主要由 MLP 层驱动，而非注意力头。

当前模型的内省能力被严重低估，可通过技术手段大幅提升。 通过消融拒绝方向（Abliteration）或训练偏置向量，检测率可分别提升 53% 和 75%，且误报率可控。这表明模型的内省「硬件」已经存在，只是被后训练中的拒绝机制压制了。

💬 文章金句

- 当前模型的内省能力被严重低估——通过消融拒绝方向或微调偏置向量，检测率可分别提升+53%和+75%。

内省能力不是预训练的「意外产物」，而是对比偏好优化（DPO）教会模型区分「应该说的」和「不应该说的」时，顺带解锁的副产品。
模型的内省「硬件」已经存在，只是被后训练中学到的拒绝机制（「我没有想法/内部状态」）系统性压制了。

📊 文章信息

AI 初评：88

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4515

标签： LLM, 内省意识, 机械可解释性, DPO, Steering Vector

阅读完整文章

Anthropic 最新论文：检测 LLM 内省意识的方法

🤖 問 AI