潜在推理冲刺 #3：激活差异引导与 Logit Lens — LessWrong

📌 一句话摘要

这篇研究文章探讨了激活引导和调优后的 Logit Lens 技术在 CoDI Llama 3.2 1B 模型上的有效性，发现虽然隐藏状态引导的效果微乎其微，但引导 KV 缓存可以提高模型准确率。

📝 详细摘要

本文详细介绍了作者研究冲刺的第三部分，重点关注应用于 CoDI（密度/思维链）模型的机械可解释性技术。作者通过实验“调优后的 Logit Lens”和“激活差异引导”来探究潜在推理链。关键发现表明，调优后的 Logit Lens 通常提供的是近似值而非精确答案，且在不同层之间缺乏一致的定位。至关重要的是，作者发现虽然引导隐藏状态的效果无法超越随机基准，但利用特定的潜在差异向量引导 KV 缓存却能显著提高模型准确率，这表明了一种操纵潜在推理的潜在途径。

💡 主要观点

- 调优后的 Logit Lens 提供的是近似答案而非精确答案。 作者观察到，调优后的 Logit Lens 通常无法精确定位最终答案，而是呈现出相近的近似值，这表明它更适合用于可视化潜在的输出分布，而非提取确定的推理过程。

KV 缓存引导在提高模型准确率方面显示出前景。 与隐藏状态引导（其结果与随机向量修补相当）不同，将激活差异引导直接应用于 KV 缓存并结合特定的潜在对组合，能够提升性能，这表明它是模型控制中更有效的杠杆点。

最终答案缺乏一致的潜在定位。 研究表明，最终答案并非始终位于特定的层或潜在空间中，这使得在不同提示词下使用 Logit Lens 进行统一的推理分析变得更加复杂。

💬 文章金句

- 调优后的 Logit Lens 有时无法找到提示词的最终答案，而是找到一个相近的近似值。

引导 KV 缓存以控制 CODI 输出可以提高准确率，而使用隐藏状态进行引导似乎对 CODI 没有显著影响。
在后期的潜在空间匹配随机向量修补的性能之前，被引导的模型表现似乎始终不如无引导的基准模型。

📊 文章信息

AI 评分：86

来源：LessWrong

作者：Realmbird

分类：人工智能

语言：英文

阅读时间：5 分钟

字数：1055

标签：机械可解释性, 激活引导, Logit Lens, CoDI, Llama 3.2

阅读完整文章

潜在推理冲刺 #3：激活差异引导与 Logit Lens — LessWrong

🤖 問 AI