← 回總覽

为什么 AI 评估机制是糟糕的 — LessWrong

📅 2026-03-12 21:59 PranavG 人工智能 1 分鐘 1227 字 評分: 84
AI 安全 AI 治理 模型评估 监管俘获 生存风险
📌 一句话摘要 文章认为,当前的 AI 评估(Evals)机制存在根本性缺陷,这是一种‘安全洗白’的形式,它将举证责任从企业转移到公众,同时缺乏真正的独立性。 📝 详细摘要 作者批判了‘Evals’运动——该运动由 Apollo Research、METR 和英国 AISI 等组织主导——认为其是 AI 安全社区内一种有害的干扰。核心论点有三点:首先,Evals 的‘变革理论’是失效的,因为它依赖于不存在的法规;其次,它颠倒了预防原则,要求公众证明模型是危险的,而不是强制企业证明其是安全的;第三,这些组织缺乏独立性,因为它们在结构上依赖 AI 实验室获取 API 访问权限,并且存在人员‘旋

📌 一句话摘要

文章认为,当前的 AI 评估(Evals)机制存在根本性缺陷,这是一种‘安全洗白’的形式,它将举证责任从企业转移到公众,同时缺乏真正的独立性。

📝 详细摘要

作者批判了‘Evals’运动——该运动由 Apollo Research、METR 和英国 AISI 等组织主导——认为其是 AI 安全社区内一种有害的干扰。核心论点有三点:首先,Evals 的‘变革理论’是失效的,因为它依赖于不存在的法规;其次,它颠倒了预防原则,要求公众证明模型是危险的,而不是强制企业证明其是安全的;第三,这些组织缺乏独立性,因为它们在结构上依赖 AI 实验室获取 API 访问权限,并且存在人员‘旋转门’现象。作者总结道,Evals 提供了虚假的安全感,并呼吁转向直接倡导禁止超级智能和实施严格的制度控制。

💡 主要观点

- AI 评估背后的变革理论存在根本性缺陷。 Evals 假设存在要求根据评估结果采取行动的法规,但由于这些法律并不存在,评估仍然毫无约束力,并分散了制定实际立法所需的工作。

Evals 颠倒了举证责任,偏袒 AI 企业而非公共安全。 当前的机制没有要求公司证明其系统是安全的,而是将证明系统危险的责任推给了第三方,这在一个前范式领域几乎是不可能完成的任务。
评估组织缺乏进行有意义监督所需的独立性。 这些实体依赖企业合作伙伴获取 API 访问权限,并且其人员通常由他们审计的实验室前员工组成,这造成了结构性的利益冲突和文化重叠。
当前的 Evals 范式助长了企业的‘安全洗白’行为。 通过关注技术指标并避免提及灭绝风险,Evals 提供了一种虚假的安全表象,这有助于企业避免更严格的监督或公众强烈反对。

💬 文章金句

- Evals 将举证责任从 AI 企业身上转移开。

  • Evals 组织的工作只有在 AI 企业被禁止部署具有危险能力的系统时才有意义。
  • 评估者不独立,甚至相去甚远……他们的激励机制被设计成受 AI 企业主导。
  • AI 企业应该是那些证明其研发项目不太可能导致人类灭绝的一方。
  • Evals 是我眼中 AI 安全社区‘聪明反被聪明误’式失败的典型例子。

📊 文章信息

AI 评分:84

来源:LessWrong

作者:PranavG

分类:人工智能

语言:英文

阅读时间:12 分钟

字数:2770

标签: AI 安全, AI 治理, 模型评估, 监管俘获, 生存风险

阅读完整文章

查看原文 → 發佈: 2026-03-12 21:59:25 收錄: 2026-03-13 00:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。