一项对 CODI 模型潜在推理链的实验性分析,使用了调优后的 Logit Lens 和线性探针,揭示了模型内部处理过程中特定的基于 Token 的信号模式和计算不对称性。
📝 详细摘要
本文详细介绍了一项旨在研究 CODI Llama 3.2 1B 模型内部推理机制的实验性“冲刺”。在先前研究的基础上,作者采用了调优后的 Logit Lens 和线性探针来解码潜在激活。研究提供了实证证据,表明在 CODI 潜在状态上训练的调优透镜无法泛化到非 CODI 激活上。此外,分析发现“Therefore”(因此)Token 是潜在步骤 3 之后出现的明确答案承诺信号,并揭示了奇数计算步骤 3 和 5 之间存在意想不到的不对称性。文章最后指出,该模型在非数学领域可能遭受灾难性遗忘,并提出了未来的研究方向,例如使用 Patchscopes 进一步探索潜在推理。
💡 主要观点
- 在 CODI 潜在状态上训练的调优 Logit Lens 在非 CODI 激活上的泛化能力较差。 该实验证明,调优透镜方法对训练分布具有高度特异性,表明这些可解释性工具若没有针对特定领域进行适配,可能无法通用。
💬 文章金句
- CODI 调优透镜无法泛化到非 CODI 激活上。
- 步骤 5 可能起到与步骤 3 计算不同的结论信号作用。
- 我怀疑 CODI 模型在数学问题之外经历了灾难性遗忘。
📊 文章信息
AI 评分:84
来源:LessWrong
作者:Realmbird
分类:人工智能
语言:英文
阅读时间:4 分钟
字数:799
标签: 机械可解释性, LLM, CODI, 调优 Logit Lens, 线性探针