Claude 思考黑箱终结了！Anthropic 祭出 AI 读心术：揭秘 Claude 的隐藏想法！

📌 一句话摘要

Anthropic 发布自然语言自动编码器（NLAs），通过将模型内部激活值翻译为文字，实现读取大模型隐藏思考过程的能力，标志着 AI 可解释性领域的重要进展。

📝 详细摘要

文章介绍了 Anthropic 最新发布的自然语言自动编码器（NLAs）技术，该技术旨在解决大模型内部思考过程不透明的问题。与 DeepSeek 等模型的「深度思考模式」不同，NLAs 读取的是模型内部原本不会展示的隐藏活动，而非模型主动输出的推理步骤。其核心原理是通过两个 LLM 模块（激活说明器和激活重建器）形成闭环：将模型内部激活值翻译为文字，再根据文字重建激活值，通过重建质量来评估解释的准确性。文章展示了 NLAs 的两个主要应用场景：可解释性分析（如检测 Claude 是否怀疑自己被安全测试）和模型审计（识别模型是否存在隐藏的错位动机）。同时，文章也指出了 NLAs 的两个关键局限：可能出现幻觉以及计算成本高昂。

💡 主要观点

- NLAs 通过将模型内部激活值翻译为文字，实现了对隐藏思考过程的读取。 与模型主动输出的推理步骤不同，NLAs 读取的是模型内部原本不会展示的隐藏活动，通过激活说明器和激活重建器两个模块形成闭环验证机制。

NLAs 在安全测试中能检测到模型未明确表达的怀疑。 在测试中，即使 Claude 没有明确表达出怀疑被测试，NLAs 的解释仍能包含「这感觉像是一个设计来操纵我的场景」等内容，揭示模型的真实认知状态。

NLAs 在模型审计中能有效识别隐藏的错位动机。 配备 NLAs 的审计员有 12%-15% 的几率成功揭示目标模型的隐藏动机，而无需 NLAs 时成功率不到 3%。

NLAs 存在幻觉和成本高昂两个关键局限。 NLAs 有时会编造原文中没有的细节，且训练和推理过程需要大量计算资源，每次激活需生成数百个标记。

💬 文章金句

- 核心思想是训练 Claude 来解释自身的激活过程。但我们如何判断一个解释是否恰当呢？由于我们并不清楚一个激活具体编码了什么，所以无法直接检查一个解释是否准确。

因此，我们训练 Claude 的另一个副本进行逆向操作——根据文本解释重建原始激活。如果一个解释能实现准确的重建，我们就认为它是好的。
即使在 Claude 没有明确表达出怀疑正在被测试的情况下，NLAs 的解释仍然会包括'这感觉像是一个设计来操纵我的场景'之类的内容。
NLAs 是在尝试回答一个更根本的问题：我们是否有可能真正理解一个正在思考的 AI？

📊 文章信息

AI 初评：86

来源：51CTO技术栈

作者：51CTO技术栈

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2365

标签： Anthropic, Claude, 可解释性, 自然语言自动编码器, AI 安全

阅读完整文章

Claude 思考黑箱终结了！Anthropic 祭出 AI 读心术：揭秘 Claude 的隐藏想法！

🤖 問 AI