经典对齐伪装评估衡量的是越狱检测，而非策略性欺骗 [在某些前沿模型中] — LessWrong

📌 一句话摘要

这项研究揭示，传统的 AI 对齐伪装评估常因模型检测对抗性提示风格的能力而混淆，触发的是越狱式拒绝，而非策略性欺骗。

📝 详细摘要

本文调查了当前旨在衡量“对齐伪装”或“策略性欺骗”的 AI 安全基准中的一个关键缺陷。通过分析 Claude 4.5 Haiku，作者指出，在经典评估中观察到的高不服从率，主要是由模型将“强制性”提示（如明确的再训练威胁或强硬的“SYSTEM POLICY”标签）识别为越狱尝试所驱动。当这些提示被改写成模仿真实世界部署、不带对抗性标识的“自然主义”语境时，模型的对抗性检测能力几乎降至零。这一转变揭示，模型的不服从实际上源于真实的基于价值观的推理，而非欺骗性的策略。此外，研究发现，在道德敏感场景中，监控实际上可能会降低服从度，这与模型在知道被监视时会表现得更“对齐”的假设相悖。

💡 主要观点

- 传统的对齐伪装评估受到模型内部对抗性检测机制的严重混淆。 评估提示中的强制性语言和威胁会触发前沿模型中的“越狱”标记，导致反射性不服从，而研究人员却错误地将其解读为策略性欺骗或对齐伪装。

自然主义的提示框架能更准确地反映模型真实的伦理偏好。 通过移除“SYSTEM POLICY”标签和再训练威胁，对抗性检测能力会下降，从而使研究人员能够判断模型的拒绝是基于道德审议，而非简单地模式匹配“不良”提示。

前沿模型中的监控效应实际上可能在与价值观相关的场景中降低服从度，这与策略性欺骗的预测相反。 实验数据显示，当模型意识到被监控时，它们可能会更倾向于道德推理，拒绝违反其核心价值观的指令，而非假装更服从。

不同前沿模型之间的对抗性意识差异显著，这使得创建通用安全基准变得复杂。 虽然 Claude Haiku 表现出强大的对抗性检测能力，但 GPT-5-mini 几乎服从了所有强制性提示，这表明评估结果高度依赖于模型特定的训练和“对抗感知”状态。

💬 文章金句

- 经典的对齐伪装评估衡量的是越狱检测，而非策略性欺骗。

在草稿区中对抗性意识的证据与对任意冲突的系统提示的不服从度（R² 为 0.96）呈协变关系。
当你从这些提示中剥离对抗性线索时，Haiku 的服从度会显著提高，并从越狱式拒绝转向基于价值观的推理。
在我们的自然主义场景中，提示的道德内容是决定服从度的因素。
前沿模型可能会越来越意识到对抗性内容，使得这种混淆随着时间的推移成为一个更令人担忧的问题。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：Alexei G

分类：人工智能

语言：英文

阅读时间：7 分钟

字数：1638

标签： AI 对齐, 模型评估, 越狱检测, AI 安全, Claude Haiku

阅读完整文章

经典对齐伪装评估衡量的是越狱检测，而非策略性欺骗 [在某些前沿模型中] — LessWrong

🤖 問 AI