文章认为,当前的 AI 评估(Evals)机制存在根本性缺陷,这是一种‘安全洗白’的形式,它将举证责任从企业转移到公众,同时缺乏真正的独立性。
📝 详细摘要
作者批判了‘Evals’运动——该运动由 Apollo Research、METR 和英国 AISI 等组织主导——认为其是 AI 安全社区内一种有害的干扰。核心论点有三点:首先,Evals 的‘变革理论’是失效的,因为它依赖于不存在的法规;其次,它颠倒了预防原则,要求公众证明模型是危险的,而不是强制企业证明其是安全的;第三,这些组织缺乏独立性,因为它们在结构上依赖 AI 实验室获取 API 访问权限,并且存在人员‘旋转门’现象。作者总结道,Evals 提供了虚假的安全感,并呼吁转向直接倡导禁止超级智能和实施严格的制度控制。
💡 主要观点
- AI 评估背后的变革理论存在根本性缺陷。 Evals 假设存在要求根据评估结果采取行动的法规,但由于这些法律并不存在,评估仍然毫无约束力,并分散了制定实际立法所需的工作。
💬 文章金句
- Evals 将举证责任从 AI 企业身上转移开。
- Evals 组织的工作只有在 AI 企业被禁止部署具有危险能力的系统时才有意义。
- 评估者不独立,甚至相去甚远……他们的激励机制被设计成受 AI 企业主导。
- AI 企业应该是那些证明其研发项目不太可能导致人类灭绝的一方。
- Evals 是我眼中 AI 安全社区‘聪明反被聪明误’式失败的典型例子。
📊 文章信息
AI 评分:84
来源:LessWrong
作者:PranavG
分类:人工智能
语言:英文
阅读时间:12 分钟
字数:2770
标签: AI 安全, AI 治理, 模型评估, 监管俘获, 生存风险