通过思维锚点与探测器理解推理过程 — LessWrong

📌 一句话摘要

本研究将思维锚点（Thought Anchors）和探测（Probing）等机械可解释性技术应用于 LLM 的法律推理，发现模型在推理过程中优先考虑事实检索而非规划，且其内部判断往往在推理后期发生转变。

📝 详细摘要

本文详细介绍了一项针对大语言模型（特别是 DeepSeek-R1-Distill-Llama-8B 和 Llama-70B）法律推理内部机制的技术调查。通过改编最初为数学推理设计的“思维锚点”框架，研究人员探索了思维链（CoT）中的特定句子如何影响最终裁决。关键方法包括通过重采样识别“承重”句子、利用因果掩码映射推理步骤之间的依赖关系，以及识别在模型层间广播关键信息的“接收器头”。研究的很大一部分集中在“提前停止”和探测上，研究人员在推理过程中注入“VERDICT:”提示，以追踪模型的“判断倾向”。他们发现，与锚点侧重于规划的数学任务不同，法律推理的锚点集中在事实检索上。此外，他们证明了基于注意力的探测器可以在模型明确给出裁决之前，甚至在高度模糊的情况下，准确预测模型的内部倾向。

💡 主要观点

- 法律推理的思维锚点侧重于事实检索而非战略规划。 与涉及规划或纠错的数学任务锚点不同，法律推理需要综合各种事实，这使得召回或巩固证据的句子在因果关系上最为显著。

LLM 的判断倾向是非单调的，并且可能在推理轨迹后期发生显著转变。 利用提前停止技术，研究人员发现模型在处理不同证据时会在“无罪”和“有罪”之间摇摆，最终结论往往仅在最后几句话中形成。

基于注意力的探测器在读取推理过程中的模型内部状态方面非常有效。 在模型激活值上训练的探测器在预测模型当前倾向方面的准确率高达 95%，这表明在 CoT 结束之前，内部隐藏状态就包含了一个清晰可辨的“观点”。

因果掩码揭示了“推理链”，但受到 Token 级伪影的影响。 虽然掩码有助于提取高依赖性句子的连贯路径，但许多长程依赖可能是由简单的 Token 重叠（感应头）而非深层语义推理造成的。

💬 文章金句

- 法律推理中存在思维锚点，但它们集中在事实检索而非规划上。

模型经常在推理过程后期改变主意；Logit 差异不是单调的，并随着模型考虑不同的证据而波动。
注意力探测器取得了成功，而其他非线性探测器则不然，这表明隐藏状态中的相关信号需要对整个表示序列进行注意力计算。
至少在轨迹早期，模型是在重复证据而非对其进行深度转换。
R1-Distill-Llama-8B 中的接收器头显示出清晰的垂直注意力条纹，这与数学推理的研究结果一致，表明这是一种普遍的架构现象。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：JeaniceK

分类：人工智能

语言：英文

阅读时间：16 分钟

字数：3778

标签：机械可解释性, 思维链, 思维锚点, 法律推理, LLM 探测

阅读完整文章

通过思维锚点与探测器理解推理过程 — LessWrong

🤖 問 AI