让黑盒不再那么晦涩（第三部分）—— LessWrong

📌 一句话摘要

一项使用稀疏自动编码器（SAE）的比较性机械可解释性研究，旨在分析模型规模（GPT-2 Small 对比 Gemma 2 9b）如何影响专家特征行为和表征几何结构。

📝 详细摘要

本文是该系列的第三篇，通过对比 GPT-2 Small (124M) 和 Gemma 2 9b，探讨了模型规模对机械可解释性的影响。作者利用稀疏自动编码器（SAE）验证了关于专家特征特异性（语法与语义）和表征几何结构的假设。关键研究结果表明，在两个模型中，专家特征始终聚焦于语法，而整体表征几何结构则按语义进行聚类。研究强调，与较小的 GPT-2 相比，Gemma 2 表现出更密集的表征结构和更复杂的激活模式，为可解释性技术如何随模型规模扩展提供了实证见解。

💡 主要观点

- 专家特征主要检测语法而非语义。 在 GPT-2 Small 和 Gemma 2 中，专家特征在同一主题的不同表层形式之间表现出较低的 Jaccard 相似度，这表明它们是针对语法模式而非抽象含义进行调整的。

整体表征几何结构按语义（主题）聚类。 尽管专家特征侧重于语法，但完整的激活向量却按主题聚类，这表明语义信息分布在模型更广泛的特征集中，而不是孤立地存在于专家特征中。

模型规模和架构显著影响表征密度。 与 GPT-2 Small 相比，Gemma 2 9b 表现出更密集的激活模式和更高的特征重叠，且基于主题的聚类在网络层中出现得更晚，这证明了可解释性模式会随模型规模的不同而产生不同的扩展方式。

💬 文章金句

- 第二阶段的发现得到了证实，即专家特征主要是语法检测器，而非语义检测器。

与 GPT-2 Small 相比，Gemma 显示出更密集的激活模式。
在 Gemma 和 GPT-2 中，激活向量均按语义聚类。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：Matthew McDonnell

分类：人工智能

语言：英文

阅读时间：32 分钟

字数：7916

标签：机械可解释性, 稀疏自动编码器, LLM 分析, Gemma 2, GPT-2

阅读完整文章

让黑盒不再那么晦涩（第三部分）—— LessWrong

🤖 問 AI