Anthropic 最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

📌 一句话摘要

Anthropic 发布自然语言自动编码器 NLA，将模型内部高维激活值翻译为可读文本，使隐藏动机发现率提升 4 倍以上，已用于 Claude 预部署对齐审计。

📝 详细摘要

Anthropic 最新论文提出自然语言自动编码器 NLA，旨在撬开大模型黑箱。NLA 通过激活值言语化器 AV 将模型内部高维激活值翻译为自然语言解释，再由激活值重建器 AR 从解释反向重建原始激活值，形成闭环验证。训练分为监督微调热启动和强化学习联合优化两阶段，核心创新在于将自然语言作为压缩接口，使解释的有用性成为可优化的客观指标。实验表明，NLA 能有效捕捉模型知道但没说出口的信息，包括评测意识、隐藏动机和异常行为根因。在隐藏动机审计游戏中，成功率从不足 3% 跃升至 12%-15%，提升 4-5 倍。NLA 已正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计，从实验室工具升级为工程流程组件。文章同时指出 NLA 的局限性，包括可能产生幻觉，但认为其方向意义重大，将 AI 可解释性从输出层面推进到内部状态审计层面。

💡 主要观点

- NLA 通过自然语言自动编码器将模型内部激活值翻译为可读文本，实现内部状态的可解释性。 系统包含激活值言语化器 AV 和激活值重建器 AR，形成原始激活→文字解释→重建激活的闭环，使解释的有用性成为可训练、可比较的客观指标。

NLA 能有效捕捉模型知道但没说出口的信息，包括评测意识和隐藏动机。 在勒索测试中，Claude 外显文本未表达怀疑，但 NLA 揭示其内部已识别出测试场景。隐藏动机发现率从不足 3% 提升至 12%-15%。

NLA 已从实验室工具升级为实际工程流程组件，用于 Claude 预部署对齐审计。 Anthropic 已将 NLA 正式用于 Claude Opus 4.6 和 Mythos Preview 的安全审计，成功定位了异常训练数据和模型 Bug 根因。

NLA 的核心创新在于将自然语言作为压缩接口，区别于传统可解释性工具。 与稀疏自编码器、归因图等需要专业人员二次解读的显微镜式工具不同，NLA 更像翻译官，直接输出可读文本，降低安全审计参与门槛。

💬 文章金句

- 过去，黑箱意味着不可见、不可读、不可追问；NLA 之后，黑箱仍然存在，但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

NLA 撬开的不是一个答案，而是一个新的问题空间。
自然语言被用作了一种压缩接口。过去，自然语言只是模型对外沟通的格式；现在，它开始被用来承载模型内部状态的摘要。
NLA 的核心不是让 Claude 自我报告。自我报告的致命缺陷在于，模型可能会迎合用户，或者生成听起来合理但并不真实的解释。

📊 文章信息

AI 初评：88

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4634

标签： Anthropic, NLA, 可解释性, 大模型安全, 激活值

阅读完整文章

Anthropic 最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

🤖 問 AI