在 Anthropic 的读心术之外，大模型黑盒迎来了真正的法医

📌 一句话摘要

本文深度解读了 Goodfire 的 VPD（对抗参数分解）方法，将其与 Anthropic 的 SAE 路线进行对比，论证了从模型权重层面进行可解释性研究的必要性，并指出这是 AI 从炼金术走向科学的关键一步。

📝 详细摘要

文章以 Anthropic 在可解释性领域的统治地位为引子，介绍了 Goodfire 公司提出的 VPD（Verified Parameter Decomposition）方法。文章首先梳理了可解释性的三条技术路线：线性探针、SAE（稀疏自编码器）和参数分解，并指出 SAE 存在「特征分裂」的固有问题，其找到的特征数量受字典大小影响，稳定性不足。VPD 则直接拆解模型权重，通过「对抗消融」和「频率最小化」两项关键技术，找到了模型内部约 6500-7000 个物理上真实存在的「齿轮」。文章通过「注意力头分布式协同」和「模型自主习得语法」两个案例，展示了 VPD 在揭示模型内部机械原理方面的独特优势。最后，文章将 VPD 置于「AI 科学化」的宏观背景下，认为它标志着可解释性从「外围观测」走向「深层手术刀」，为模型对齐、安全审计和精细编辑提供了新的可能。

💡 主要观点

- SAE 方法存在「特征分裂」问题，其找到的特征数量受字典大小影响，而非模型本身决定。 SAE 找到的特征会因字典大小而切碎、重组、漂移，导致基于这些特征构建的电路图不稳定，无法作为模型真实结构的可靠基础。

VPD 通过「对抗消融」和「频率最小化」两项关键技术，找到了模型内部物理上真实存在的计算单元。 对抗消融通过构造极端上下文来孤立待测齿轮，避免了其他齿轮的代偿效应；频率最小化通过非线性惩罚，迫使模型合并细碎特征，从而稳定地识别出约 6500-7000 个核心齿轮。

VPD 揭示了模型内部机制是跨越宏观结构的分布式协同，而非简单的「一个零件对应一个功能」。 例如，负责「关注前一个词汇」的齿轮并非存在于某个特定的注意力头中，而是均匀分布在所有注意力头里，这颠覆了传统认知。

VPD 路线使可解释性从「外围观测」升级为「深层手术刀」，可对模型进行物理级别的修改。 与 SAE 的临时性干预不同，VPD 可以永久性地拆除或修改模型内部的物理齿轮，实现能力的物理移除、可审计的因果链和模型的可缝合编辑。

💬 文章金句

- VPD 不是孤立的一篇论文，它是这一波「AI 科学化」运动里的一颗信号弹。

SAE 这一派这两年慢慢把自己的定位拔高到了「我能做神经解剖」的程度，Goodfire 这篇论文就是一次温和但坚定的纠偏，你们做的是功能 MRI，真正的解剖得这么做。
VPD 牺牲了人类语言的通俗可读性，你可能无法用自然语言完美定义某根齿轮，但换来的是对机器彻底的物理调整权。
过去十年的 AI 有个奇怪处境，工程进展遥遥领先于科学解释。...这跟化学诞生之前的炼金术没有本质区别。
我们大概正站在转折点上。回头看，今天的我们可能会被记住为最后一代仅凭经验和直觉就能让模型涌现智能的人。

📊 文章信息

AI 初评：90

来源：腾讯科技

作者：腾讯科技

分类：人工智能

语言：中文

阅读时间：33 分钟

字数：8248

标签：大模型可解释性, VPD, SAE, Goodfire, Anthropic

阅读完整文章

在 Anthropic 的读心术之外，大模型黑盒迎来了真正的法医 | Hao 好聊论文

🤖 問 AI