为什么 AI 评估机制是糟糕的 — LessWrong

📌 一句话摘要

文章认为，当前的 AI 评估（Evals）机制存在根本性缺陷，这是一种‘安全洗白’的形式，它将举证责任从企业转移到公众，同时缺乏真正的独立性。

📝 详细摘要

作者批判了‘Evals’运动——该运动由 Apollo Research、METR 和英国 AISI 等组织主导——认为其是 AI 安全社区内一种有害的干扰。核心论点有三点：首先，Evals 的‘变革理论’是失效的，因为它依赖于不存在的法规；其次，它颠倒了预防原则，要求公众证明模型是危险的，而不是强制企业证明其是安全的；第三，这些组织缺乏独立性，因为它们在结构上依赖 AI 实验室获取 API 访问权限，并且存在人员‘旋转门’现象。作者总结道，Evals 提供了虚假的安全感，并呼吁转向直接倡导禁止超级智能和实施严格的制度控制。

💡 主要观点

- AI 评估背后的变革理论存在根本性缺陷。 Evals 假设存在要求根据评估结果采取行动的法规，但由于这些法律并不存在，评估仍然毫无约束力，并分散了制定实际立法所需的工作。

Evals 颠倒了举证责任，偏袒 AI 企业而非公共安全。 当前的机制没有要求公司证明其系统是安全的，而是将证明系统危险的责任推给了第三方，这在一个前范式领域几乎是不可能完成的任务。

评估组织缺乏进行有意义监督所需的独立性。 这些实体依赖企业合作伙伴获取 API 访问权限，并且其人员通常由他们审计的实验室前员工组成，这造成了结构性的利益冲突和文化重叠。

当前的 Evals 范式助长了企业的‘安全洗白’行为。 通过关注技术指标并避免提及灭绝风险，Evals 提供了一种虚假的安全表象，这有助于企业避免更严格的监督或公众强烈反对。

💬 文章金句

- Evals 将举证责任从 AI 企业身上转移开。

Evals 组织的工作只有在 AI 企业被禁止部署具有危险能力的系统时才有意义。
评估者不独立，甚至相去甚远……他们的激励机制被设计成受 AI 企业主导。
AI 企业应该是那些证明其研发项目不太可能导致人类灭绝的一方。
Evals 是我眼中 AI 安全社区‘聪明反被聪明误’式失败的典型例子。

📊 文章信息

AI 评分：84

来源：LessWrong

作者：PranavG

分类：人工智能

语言：英文

阅读时间：12 分钟

字数：2770

标签： AI 安全, AI 治理, 模型评估, 监管俘获, 生存风险

阅读完整文章

为什么 AI 评估机制是糟糕的 — LessWrong

🤖 問 AI