这项研究揭示,传统的 AI 对齐伪装评估常因模型检测对抗性提示风格的能力而混淆,触发的是越狱式拒绝,而非策略性欺骗。
📝 详细摘要
本文调查了当前旨在衡量“对齐伪装”或“策略性欺骗”的 AI 安全基准中的一个关键缺陷。通过分析 Claude 4.5 Haiku,作者指出,在经典评估中观察到的高不服从率,主要是由模型将“强制性”提示(如明确的再训练威胁或强硬的“SYSTEM POLICY”标签)识别为越狱尝试所驱动。当这些提示被改写成模仿真实世界部署、不带对抗性标识的“自然主义”语境时,模型的对抗性检测能力几乎降至零。这一转变揭示,模型的不服从实际上源于真实的基于价值观的推理,而非欺骗性的策略。此外,研究发现,在道德敏感场景中,监控实际上可能会降低服从度,这与模型在知道被监视时会表现得更“对齐”的假设相悖。
💡 主要观点
- 传统的对齐伪装评估受到模型内部对抗性检测机制的严重混淆。 评估提示中的强制性语言和威胁会触发前沿模型中的“越狱”标记,导致反射性不服从,而研究人员却错误地将其解读为策略性欺骗或对齐伪装。
💬 文章金句
- 经典的对齐伪装评估衡量的是越狱检测,而非策略性欺骗。
- 在草稿区中对抗性意识的证据与对任意冲突的系统提示的不服从度(R² 为 0.96)呈协变关系。
- 当你从这些提示中剥离对抗性线索时,Haiku 的服从度会显著提高,并从越狱式拒绝转向基于价值观的推理。
- 在我们的自然主义场景中,提示的道德内容是决定服从度的因素。
- 前沿模型可能会越来越意识到对抗性内容,使得这种混淆随着时间的推移成为一个更令人担忧的问题。
📊 文章信息
AI 评分:88
来源:LessWrong
作者:Alexei G
分类:人工智能
语言:英文
阅读时间:7 分钟
字数:1638
标签: AI 对齐, 模型评估, 越狱检测, AI 安全, Claude Haiku