在大型开源权重模型中复现针对评估意识的引导（Steering）研究 — LessWrong

📌 一句话摘要

本研究在开源权重模型上复现了 Anthropic 的引导向量实验，发现语义无关的“控制”向量能够产生与意图向量同样显著的效果，这挑战了利用引导技术抑制评估意识的可靠性。

📝 详细摘要

本文详细介绍了英国 AI 安全研究所（AISI）模型透明度团队对 Anthropic 使用引导向量抑制大语言模型“评估意识”方法的复现研究。作者使用 GLM-5 模型和一个智能体勒索场景，测试了意图引导向量以及多种语义无关的“控制”向量。核心发现是，源自与对齐无关的对比对的控制向量，往往会对模型行为产生与专门针对评估意识设计的向量同样大的影响。这表明引导是一种粗糙且不可预测的干预手段，目前利用引导来设定评估博弈影响上限的方法可能并不可靠。作者总结认为，虽然 Anthropic 的实验可能揭示了真实的评估博弈，但由于引导过程本身可能产生虚假效应，其结果应谨慎解读。

💡 主要观点

- 语义无关的控制向量会产生显著且不可预测的影响。 研究表明，源自无关概念（如书籍放置）的引导向量对失调行为和评估意识的影响力与目标向量相当，这削弱了它们作为可靠基准的作用。

引导效应是非单调的，且对规模高度敏感。 引导对模型行为的影响并不总是与引导强度呈线性相关，在某些情况下，引导对评估博弈的不同方面可能产生相反的效果，这使得安全评估的解读变得复杂。

现有的用于界定评估博弈的引导方法尚不充分。 由于引导可能以非预期方式直接影响对齐相关机制，作者认为目前依赖这些引导结果来限制评估博弈影响的安全声明尚不够稳健。

💬 文章金句

- 我们的核心发现是，源自与对齐语义无关的对比对的‘控制’引导向量，其效果可能与精心设计的评估意识引导向量一样大。

引导效应复杂且不可预测……引导向量可能对评估博弈的不同方面产生相反的影响。
语义无关的对比对并非合适的对照组。结果不应仅仅因为其效果小于控制引导向量而被否定。
我们不会被那些利用引导结果来设定评估意识影响上限的安全声明所说服。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：Thomas Read

分类：人工智能

语言：英文

阅读时间：21 分钟

字数：5187

标签： AI 安全, 模型引导, 评估意识, 对齐, GLM-5

阅读完整文章

在大型开源权重模型中复现针对评估意识的引导（Steering）研究 — LessWrong

🤖 問 AI