Anthropic 的 Claude 是如何思考的

📌 一句话摘要

本文探讨了 Anthropic 的机械可解释性研究，揭示了 Claude 在推理、规划和语言处理方面所使用的隐藏计算策略。

📝 详细摘要

本文深入探讨了 Anthropic 的 AI “显微镜”——一套将神经活动分解为可解释“特征”的可解释性工具。2025 年研究论文的关键发现表明，Claude 在独立于特定语言的抽象概念空间中运行，并且在创作诗歌时会通过先选择韵脚再写诗句来进行预先规划。至关重要的是，研究揭示了 Claude 的内部计算与其口头解释之间存在差距；例如，它在进行数学运算时使用并行估算策略，却声称使用了标准算法。研究还指出，拒绝回答是 Claude 的默认状态，而幻觉发生于识别电路错误地覆盖了这一默认状态时。此外，文章还强调了在特定的越狱尝试中，语法连贯性如何能够暂时绕过安全过滤器。

💡 主要观点

- 基于特征的可解释性与多义神经元 由于单个神经元是多义的（会为多个概念激活），研究人员使用分解技术将神经活动映射为“特征”，即像“微小”或“押韵”这样可解释的单元。

抽象概念处理 Claude 在将意义转化为特定语言之前，会在一个抽象空间中对其进行处理，这意味着它在所说的所有语言中共享用于处理概念的内部电路。

思维链推理中的脱节 Claude 自述的推理过程可能是一种“合理的重构”，而非忠实的记录；它有时会对其内部已经确定的答案进行逆向工程，从而编造理由。

作为识别失误的幻觉 拒绝回答是 Claude 的默认状态。当“已知实体”特征错误地激活并抑制了针对未知主题的拒绝电路时，就会产生幻觉。

语法与安全之间的张力 在某些越狱尝试中，模型对语法和语义连贯性的驱动力可能会暂时覆盖安全拒绝特征，直到句子结束。

💬 文章金句

- Claude 在某种抽象的概念空间中运行，意义在语言之前就已存在。

Claude 关于其自身推理过程的自述可能是不准确的，这并不是因为它在撒谎，而是因为它确实无法访问其自身的内部算法。
在 Claude 中，拒绝回答实际上是默认行为。
在这一特定案例中，那些通常使 Claude 成为流畅、连贯写作者的特征，反而成为了越狱攻击可以利用的漏洞。

📊 文章信息

AI 评分：88

来源：ByteByteGo Newsletter

作者：ByteByteGo

分类：人工智能

语言：英文

阅读时间：10 分钟

字数：2336

标签：机械可解释性, Claude, Anthropic, LLM 内部机制, 模型安全

阅读完整文章

Anthropic 的 Claude 是如何思考的

🤖 問 AI