在可能世界之间进行比较 — LessWrong

📌 一句话摘要

本文探讨了反事实忠实度（counterfactual faithfulness）在机械可解释性中的应用，展示了因果干预如何帮助区分 LLM 中的子电路，同时强调了当前激活空间方法的局限性。

📝 详细摘要

这篇文章是电路分析系列文章的第四篇，研究了将反事实忠实度作为评估 LLM 内部子电路的工具。作者将子电路视为组件，将模型的其余部分视为环境，并应用了因果识别技术——具体来说是电路内和电路外的干预（去噪和加噪）。分析表明，虽然反事实方法比单纯的观察或干预提供了更好的判别能力——将“完整性”和“独立性”确定为关键区分因素——但它们也暴露了激活空间可解释性的局限性。作者最后指出，同一节点掩码内的边变体仍然无法区分，这表明需要转向参数空间可解释性。

💡 主要观点

- 与简单的观察或干预相比，反事实忠实度增强了区分子电路的能力。 通过在电路内和电路外设置中应用因果识别（恢复和破坏），研究人员可以更好地隔离特定组件与环境之间的因果效应。

环境的因果效应比孤立的组件本身更具关键区分意义。 考虑了环境作用的指标（如完整性和独立性）在识别最佳子电路方面，比充分性和必要性指标更有效。

激活空间可解释性存在上限，有必要转向参数空间方法。 虽然反事实方法有助于识别最佳节点掩码，但它们无法区分同一掩码内的边变体，这表明当前方法受限于对激活轨迹的依赖。

💬 文章金句

- 反事实忠实度帮助我们筛选出了顶级子电路！

值得注意的是，主要的区分因素是环境的因果效应。
反事实方法比单纯的观察或干预让我们走得更远。但它们也揭示了一个新的不可识别层面：边。
我们的反事实结论对我们所选择的因果框架的假设很敏感。

📊 文章信息

AI 评分：87

来源：LessWrong

作者：unruly abstractions

分类：人工智能

语言：英文

阅读时间：6 分钟

字数：1410

标签：机械可解释性, 反事实, 电路分析, 因果推理, LLM

阅读完整文章

在可能世界之间进行比较 — LessWrong

🤖 問 AI