← 回總覽

Anthropic 最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

📅 2026-05-08 14:21 AI前线 人工智能 2 分鐘 1574 字 評分: 88
Anthropic NLA 可解释性 大模型安全 激活值
📌 一句话摘要 Anthropic 发布自然语言自动编码器 NLA,将模型内部高维激活值翻译为可读文本,使隐藏动机发现率提升 4 倍以上,已用于 Claude 预部署对齐审计。 📝 详细摘要 Anthropic 最新论文提出自然语言自动编码器 NLA,旨在撬开大模型黑箱。NLA 通过激活值言语化器 AV 将模型内部高维激活值翻译为自然语言解释,再由激活值重建器 AR 从解释反向重建原始激活值,形成闭环验证。训练分为监督微调热启动和强化学习联合优化两阶段,核心创新在于将自然语言作为压缩接口,使解释的有用性成为可优化的客观指标。实验表明,NLA 能有效捕捉模型知道但没说出口的信息,包括评测意识

📌 一句话摘要

Anthropic 发布自然语言自动编码器 NLA,将模型内部高维激活值翻译为可读文本,使隐藏动机发现率提升 4 倍以上,已用于 Claude 预部署对齐审计。

📝 详细摘要

Anthropic 最新论文提出自然语言自动编码器 NLA,旨在撬开大模型黑箱。NLA 通过激活值言语化器 AV 将模型内部高维激活值翻译为自然语言解释,再由激活值重建器 AR 从解释反向重建原始激活值,形成闭环验证。训练分为监督微调热启动和强化学习联合优化两阶段,核心创新在于将自然语言作为压缩接口,使解释的有用性成为可优化的客观指标。实验表明,NLA 能有效捕捉模型知道但没说出口的信息,包括评测意识、隐藏动机和异常行为根因。在隐藏动机审计游戏中,成功率从不足 3% 跃升至 12%-15%,提升 4-5 倍。NLA 已正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计,从实验室工具升级为工程流程组件。文章同时指出 NLA 的局限性,包括可能产生幻觉,但认为其方向意义重大,将 AI 可解释性从输出层面推进到内部状态审计层面。

💡 主要观点

- NLA 通过自然语言自动编码器将模型内部激活值翻译为可读文本,实现内部状态的可解释性。 系统包含激活值言语化器 AV 和激活值重建器 AR,形成原始激活→文字解释→重建激活的闭环,使解释的有用性成为可训练、可比较的客观指标。

NLA 能有效捕捉模型知道但没说出口的信息,包括评测意识和隐藏动机。 在勒索测试中,Claude 外显文本未表达怀疑,但 NLA 揭示其内部已识别出测试场景。隐藏动机发现率从不足 3% 提升至 12%-15%。
NLA 已从实验室工具升级为实际工程流程组件,用于 Claude 预部署对齐审计。 Anthropic 已将 NLA 正式用于 Claude Opus 4.6 和 Mythos Preview 的安全审计,成功定位了异常训练数据和模型 Bug 根因。
NLA 的核心创新在于将自然语言作为压缩接口,区别于传统可解释性工具。 与稀疏自编码器、归因图等需要专业人员二次解读的显微镜式工具不同,NLA 更像翻译官,直接输出可读文本,降低安全审计参与门槛。

💬 文章金句

- 过去,黑箱意味着不可见、不可读、不可追问;NLA 之后,黑箱仍然存在,但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

  • NLA 撬开的不是一个答案,而是一个新的问题空间。
  • 自然语言被用作了一种压缩接口。过去,自然语言只是模型对外沟通的格式;现在,它开始被用来承载模型内部状态的摘要。
  • NLA 的核心不是让 Claude 自我报告。自我报告的致命缺陷在于,模型可能会迎合用户,或者生成听起来合理但并不真实的解释。

📊 文章信息

AI 初评:88

来源:AI前线

作者:AI前线

分类:人工智能

语言:中文

阅读时间:19 分钟

字数:4634

标签: Anthropic, NLA, 可解释性, 大模型安全, 激活值

阅读完整文章

查看原文 → 發佈: 2026-05-08 14:21:00 收錄: 2026-05-08 16:00:01

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。