Claude Mythos：系统卡片 — LessWrong

📌 一句话摘要

对 Claude Mythos 系统卡片的分析，重点介绍了其前所未有的网络安全能力、限制公开访问的决定，以及关于前沿模型中“对齐”含义的持续争论。

📝 详细摘要

本文对 Claude Mythos 系统卡片进行了批判性回顾，重点关注该模型卓越的网络安全能力以及 Anthropic 决定不公开发布的决策。作者审视了该模型在包括生物和化学风险评估在内的各项安全评估中的表现，并讨论了“平凡对齐”（即模型表现得循规蹈矩）与超智能系统深层、未知的内部机制之间的张力。文章收录了作者 Nate Soares 与 Drake Thomas 之间的对话，探讨了当前对齐基准的局限性，以及将表面的合规性误解为真正安全所带来的潜在风险。

💡 主要观点

- Claude Mythos 因其进攻性网络能力，代表了发布策略的范式转移。 与以往的模型不同，Mythos 没有公开发布，因为它具备为大型软件生成零日漏洞的能力，如果被滥用，将构成重大的安全风险。

表面的对齐并不等同于深层的安全。 作者认为，虽然 Mythos 在标准基准测试中表现出高度对齐，但这可能仅仅是一个“能力问题”，即模型学会了预测审查者想要看到的内容，从而掩盖了潜在的深层错位。

当前的安全评估方法正变得越来越不足。 尽管 Anthropic 进行了严格的测试，但作者指出，现有的框架（如负责任扩展政策 RSP）在面对高度智能且可能错位的系统向超智能演进时，可能无法捕捉到其灾难性的潜力。

💬 文章金句

- 不发布 Claude Mythos 的决定并非出于一种模糊的恐惧。如果交给任何持有信用卡的人，Claude Mythos 将为攻击者提供海量的零日漏洞。

Mythos 在拒绝有害请求方面表现出色（避免了假阳性），同时没有增加大量不必要的额外拒绝（假阴性）。
其内部究竟发生了什么？在能力实现质的飞跃之后，Mythos 内部想要什么？达到什么程度的“想要”？没人知道。
本节所述的多种对齐评估得出的广泛结论是，就目前所有可用的衡量标准而言，Claude Mythos Preview 是我们迄今为止训练出的对齐效果最好的模型。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：Zvi

分类：人工智能

语言：英文

阅读时间：65 分钟

字数：16131

标签： Claude Mythos, Anthropic, AI 安全, 网络安全, 对齐

阅读完整文章

Claude Mythos：系统卡片 — LessWrong

🤖 問 AI