← 回總覽

潜在推理冲刺 #2:基于 Token 的信号与线性探针 — LessWrong

📅 2026-03-19 11:39 Realmbird 人工智能 1 分鐘 1213 字 評分: 84
机械可解释性 LLM CODI 调优 Logit Lens 线性探针
📌 一句话摘要 一项对 CODI 模型潜在推理链的实验性分析,使用了调优后的 Logit Lens 和线性探针,揭示了模型内部处理过程中特定的基于 Token 的信号模式和计算不对称性。 📝 详细摘要 本文详细介绍了一项旨在研究 CODI Llama 3.2 1B 模型内部推理机制的实验性“冲刺”。在先前研究的基础上,作者采用了调优后的 Logit Lens 和线性探针来解码潜在激活。研究提供了实证证据,表明在 CODI 潜在状态上训练的调优透镜无法泛化到非 CODI 激活上。此外,分析发现“Therefore”(因此)Token 是潜在步骤 3 之后出现的明确答案承诺信号,并揭示了奇数计

📌 一句话摘要

一项对 CODI 模型潜在推理链的实验性分析,使用了调优后的 Logit Lens 和线性探针,揭示了模型内部处理过程中特定的基于 Token 的信号模式和计算不对称性。

📝 详细摘要

本文详细介绍了一项旨在研究 CODI Llama 3.2 1B 模型内部推理机制的实验性“冲刺”。在先前研究的基础上,作者采用了调优后的 Logit Lens 和线性探针来解码潜在激活。研究提供了实证证据,表明在 CODI 潜在状态上训练的调优透镜无法泛化到非 CODI 激活上。此外,分析发现“Therefore”(因此)Token 是潜在步骤 3 之后出现的明确答案承诺信号,并揭示了奇数计算步骤 3 和 5 之间存在意想不到的不对称性。文章最后指出,该模型在非数学领域可能遭受灾难性遗忘,并提出了未来的研究方向,例如使用 Patchscopes 进一步探索潜在推理。

💡 主要观点

- 在 CODI 潜在状态上训练的调优 Logit Lens 在非 CODI 激活上的泛化能力较差。 该实验证明,调优透镜方法对训练分布具有高度特异性,表明这些可解释性工具若没有针对特定领域进行适配,可能无法通用。

“Therefore” Token 是潜在链中答案承诺的可靠信号。 “Therefore” 在潜在步骤 3 之后特异性地出现,表明模型在此阶段已确定答案,为内部推理步骤提供了一个具体的基于 Token 的标记。
奇数计算步骤 3 和 5 之间存在显著的不对称性。 线性探针显示,虽然这两个步骤都参与了计算,但步骤 3 在最终答案检测方面表现出更高的激活度,这挑战了简化的“计算/存储交替”假说。
CODI 模型在数学任务之外可能会遭受灾难性遗忘。 作者观察到模型在非数学提示词中表现下降且出现意外的 Token 行为,这表明模型的推理能力与其训练数据分布紧密耦合。

💬 文章金句

- CODI 调优透镜无法泛化到非 CODI 激活上。

  • 步骤 5 可能起到与步骤 3 计算不同的结论信号作用。
  • 我怀疑 CODI 模型在数学问题之外经历了灾难性遗忘。

📊 文章信息

AI 评分:84

来源:LessWrong

作者:Realmbird

分类:人工智能

语言:英文

阅读时间:4 分钟

字数:799

标签: 机械可解释性, LLM, CODI, 调优 Logit Lens, 线性探针

阅读完整文章

查看原文 → 發佈: 2026-03-19 11:39:32 收錄: 2026-03-19 16:00:19

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。