Anthropic 负责任扩展政策 v3：深入细节 — LessWrong

📌 一句话摘要

对 Anthropic 负责任扩展政策 v3.0 的批判性分析，指出从具体、有约束力的承诺转向灵活的“强有力论证”削弱了该公司的安全治理和问责制。

📝 详细摘要

本文对 Anthropic 更新后的负责任扩展政策（RSP v3.0）进行了详细批评。作者认为，新框架用模糊的“强有力论证”要求取代了具体、可验证的承诺，实际上取消了对模型发布的硬性约束。主要担忧包括缺乏部署前门控机制、取消了具体的安全等级（ASL），以及过度依赖内部信任而非客观、有约束力的安全协议。文章强调，虽然该政策引入了定期风险报告，但未能解决能力快速提升和递归自我改进带来的核心威胁，这表明该公司“安全第一”的理念可能正在衰退。

💡 主要观点

- 从具体承诺转向“强有力论证”造成了治理真空。 通过用主观的“强有力论证”取代清晰、有约束力的安全等级，Anthropic 以牺牲问责制为代价增加了运营灵活性，转而依赖内部信任而非可验证的约束。

取消部署前门控机制和具体的安全阈值削弱了安全态势。 该政策缺乏针对模型发布的硬性“停止”机制，实际上允许公司在安全论证存在争议或不完整的情况下继续进行部署。

该政策未能解决能力快速提升带来的生存风险。 拟议的保障措施侧重于次要的滥用风险，而非递归自我改进或自主研发这一核心威胁，这表明其与潜在 AGI 风险的严重程度不匹配。

💬 文章金句

- 其基本设计原则是灵活性和“强有力论证”，而且他们可以随时更改内容，这意味着其核心原则就是信任。

这里没有部署前门控机制。你可以直接发布产品。这是最不该缺失的关键环节。
RSP v3 缺乏安全思维。RSP v1 和 v2 似乎还追求这种思维，尽管它们往往做得不够。而在这里，这种思维似乎完全缺失了。

📊 文章信息

AI 评分：82

来源：LessWrong

作者：Zvi

分类：人工智能

语言：英文

阅读时间：32 分钟

字数：7863

标签： Anthropic, AI 安全, 负责任扩展政策, AI 治理, LessWrong

阅读完整文章

Anthropic 负责任扩展政策 v3：深入细节 — LessWrong

🤖 問 AI