观察能带我们走多远？—— LessWrong

📌 一句话摘要

本文探讨了机械可解释性中“观察忠实度”（observational faithfulness）的局限性，并通过玩具模型证明，仅凭输入-输出行为不足以唯一确定正确的子电路解释。

📝 详细摘要

本文探讨了机械可解释性中的“不可识别性”问题，即多个子电路可以同样地解释模型的行为。作者使用玩具模型（在布尔逻辑门上训练的 MLP）证明，观察忠实度——即检查子电路是否与完整模型的输出匹配——无法区分候选解释，即使在超出训练分布或存在噪声的情况下进行测试也是如此。分析强调，比较本质上是有损的，且观察性测试受到完整模型自身对现实忠实度的限制。作者得出结论，要解决电路发现中的歧义，必须超越观察，转向内部干预。

💡 主要观点

- 观察忠实度对于电路识别是必要的，但并不充分。 对于给定的输入，多个子电路可以产生相同的输出，这使得仅凭输入-输出行为无法区分“真实”电路，无论使用多少数据都无济于事。

模型行为的比较本质上是有损的。 无论是使用位级准确率还是贪婪解码，将模型输出压缩为离散类别都会掩盖底层 Logit 分布中的显著差异，从而导致错误的等价性判断。

观察性测试的可靠性取决于完整模型的忠实度。 只有当完整模型本身能准确追踪底层事实依据时，观察分析才能有效区分子电路；否则，子电路的分歧将毫无信息量。

💬 文章金句

- 简而言之：这还不够，即使我们测试的范围远远超出了训练分布。

如果我们无法在一个我们亲自定义了答案的微型 MLP 中可靠地识别出实现 XOR 的电路，那么我们应该对前沿模型中的电路发现声明感到担忧。
核心结论：比较需要压缩，而压缩往往是有损的。
为了打破僵局，我们需要深入电路内部，而不仅仅是观察其行为。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：unruly abstractions

分类：人工智能

语言：英文

阅读时间：10 分钟

字数：2382

标签：机械可解释性, AI 安全, 电路发现, 可解释性, 玩具模型

阅读完整文章

观察能带我们走多远？—— LessWrong

🤖 問 AI