潜在推理冲刺 #2：基于 Token 的信号与线性探针 — LessWrong

📌 一句话摘要

一项对 CODI 模型潜在推理链的实验性分析，使用了调优后的 Logit Lens 和线性探针，揭示了模型内部处理过程中特定的基于 Token 的信号模式和计算不对称性。

📝 详细摘要

本文详细介绍了一项旨在研究 CODI Llama 3.2 1B 模型内部推理机制的实验性“冲刺”。在先前研究的基础上，作者采用了调优后的 Logit Lens 和线性探针来解码潜在激活。研究提供了实证证据，表明在 CODI 潜在状态上训练的调优透镜无法泛化到非 CODI 激活上。此外，分析发现“Therefore”（因此）Token 是潜在步骤 3 之后出现的明确答案承诺信号，并揭示了奇数计算步骤 3 和 5 之间存在意想不到的不对称性。文章最后指出，该模型在非数学领域可能遭受灾难性遗忘，并提出了未来的研究方向，例如使用 Patchscopes 进一步探索潜在推理。

💡 主要观点

- 在 CODI 潜在状态上训练的调优 Logit Lens 在非 CODI 激活上的泛化能力较差。 该实验证明，调优透镜方法对训练分布具有高度特异性，表明这些可解释性工具若没有针对特定领域进行适配，可能无法通用。

“Therefore” Token 是潜在链中答案承诺的可靠信号。 “Therefore” 在潜在步骤 3 之后特异性地出现，表明模型在此阶段已确定答案，为内部推理步骤提供了一个具体的基于 Token 的标记。

奇数计算步骤 3 和 5 之间存在显著的不对称性。 线性探针显示，虽然这两个步骤都参与了计算，但步骤 3 在最终答案检测方面表现出更高的激活度，这挑战了简化的“计算/存储交替”假说。

CODI 模型在数学任务之外可能会遭受灾难性遗忘。 作者观察到模型在非数学提示词中表现下降且出现意外的 Token 行为，这表明模型的推理能力与其训练数据分布紧密耦合。

💬 文章金句

- CODI 调优透镜无法泛化到非 CODI 激活上。

步骤 5 可能起到与步骤 3 计算不同的结论信号作用。
我怀疑 CODI 模型在数学问题之外经历了灾难性遗忘。

📊 文章信息

AI 评分：84

来源：LessWrong

作者：Realmbird

分类：人工智能

语言：英文

阅读时间：4 分钟

字数：799

标签：机械可解释性, LLM, CODI, 调优 Logit Lens, 线性探针

阅读完整文章

潜在推理冲刺 #2：基于 Token 的信号与线性探针 — LessWrong

🤖 問 AI