本文探讨了机械可解释性中“观察忠实度”(observational faithfulness)的局限性,并通过玩具模型证明,仅凭输入-输出行为不足以唯一确定正确的子电路解释。
📝 详细摘要
本文探讨了机械可解释性中的“不可识别性”问题,即多个子电路可以同样地解释模型的行为。作者使用玩具模型(在布尔逻辑门上训练的 MLP)证明,观察忠实度——即检查子电路是否与完整模型的输出匹配——无法区分候选解释,即使在超出训练分布或存在噪声的情况下进行测试也是如此。分析强调,比较本质上是有损的,且观察性测试受到完整模型自身对现实忠实度的限制。作者得出结论,要解决电路发现中的歧义,必须超越观察,转向内部干预。
💡 主要观点
- 观察忠实度对于电路识别是必要的,但并不充分。 对于给定的输入,多个子电路可以产生相同的输出,这使得仅凭输入-输出行为无法区分“真实”电路,无论使用多少数据都无济于事。
💬 文章金句
- 简而言之:这还不够,即使我们测试的范围远远超出了训练分布。
- 如果我们无法在一个我们亲自定义了答案的微型 MLP 中可靠地识别出实现 XOR 的电路,那么我们应该对前沿模型中的电路发现声明感到担忧。
- 核心结论:比较需要压缩,而压缩往往是有损的。
- 为了打破僵局,我们需要深入电路内部,而不仅仅是观察其行为。
📊 文章信息
AI 评分:88
来源:LessWrong
作者:unruly abstractions
分类:人工智能
语言:英文
阅读时间:10 分钟
字数:2382
标签: 机械可解释性, AI 安全, 电路发现, 可解释性, 玩具模型