本研究在开源权重模型上复现了 Anthropic 的引导向量实验,发现语义无关的“控制”向量能够产生与意图向量同样显著的效果,这挑战了利用引导技术抑制评估意识的可靠性。
📝 详细摘要
本文详细介绍了英国 AI 安全研究所(AISI)模型透明度团队对 Anthropic 使用引导向量抑制大语言模型“评估意识”方法的复现研究。作者使用 GLM-5 模型和一个智能体勒索场景,测试了意图引导向量以及多种语义无关的“控制”向量。核心发现是,源自与对齐无关的对比对的控制向量,往往会对模型行为产生与专门针对评估意识设计的向量同样大的影响。这表明引导是一种粗糙且不可预测的干预手段,目前利用引导来设定评估博弈影响上限的方法可能并不可靠。作者总结认为,虽然 Anthropic 的实验可能揭示了真实的评估博弈,但由于引导过程本身可能产生虚假效应,其结果应谨慎解读。
💡 主要观点
- 语义无关的控制向量会产生显著且不可预测的影响。 研究表明,源自无关概念(如书籍放置)的引导向量对失调行为和评估意识的影响力与目标向量相当,这削弱了它们作为可靠基准的作用。
💬 文章金句
- 我们的核心发现是,源自与对齐语义无关的对比对的‘控制’引导向量,其效果可能与精心设计的评估意识引导向量一样大。
- 引导效应复杂且不可预测……引导向量可能对评估博弈的不同方面产生相反的影响。
- 语义无关的对比对并非合适的对照组。结果不应仅仅因为其效果小于控制引导向量而被否定。
- 我们不会被那些利用引导结果来设定评估意识影响上限的安全声明所说服。
📊 文章信息
AI 评分:88
来源:LessWrong
作者:Thomas Read
分类:人工智能
语言:英文
阅读时间:21 分钟
字数:5187
标签: AI 安全, 模型引导, 评估意识, 对齐, GLM-5