一项使用稀疏自动编码器(SAE)的比较性机械可解释性研究,旨在分析模型规模(GPT-2 Small 对比 Gemma 2 9b)如何影响专家特征行为和表征几何结构。
📝 详细摘要
本文是该系列的第三篇,通过对比 GPT-2 Small (124M) 和 Gemma 2 9b,探讨了模型规模对机械可解释性的影响。作者利用稀疏自动编码器(SAE)验证了关于专家特征特异性(语法与语义)和表征几何结构的假设。关键研究结果表明,在两个模型中,专家特征始终聚焦于语法,而整体表征几何结构则按语义进行聚类。研究强调,与较小的 GPT-2 相比,Gemma 2 表现出更密集的表征结构和更复杂的激活模式,为可解释性技术如何随模型规模扩展提供了实证见解。
💡 主要观点
- 专家特征主要检测语法而非语义。 在 GPT-2 Small 和 Gemma 2 中,专家特征在同一主题的不同表层形式之间表现出较低的 Jaccard 相似度,这表明它们是针对语法模式而非抽象含义进行调整的。
💬 文章金句
- 第二阶段的发现得到了证实,即专家特征主要是语法检测器,而非语义检测器。
- 与 GPT-2 Small 相比,Gemma 显示出更密集的激活模式。
- 在 Gemma 和 GPT-2 中,激活向量均按语义聚类。
📊 文章信息
AI 评分:88
来源:LessWrong
作者:Matthew McDonnell
分类:人工智能
语言:英文
阅读时间:32 分钟
字数:7916
标签: 机械可解释性, 稀疏自动编码器, LLM 分析, Gemma 2, GPT-2