四张伪造图表中的 AI 安全现状 — LessWrong

📌 一句话摘要

一份关于 2026 年 AI 安全格局的专家评估，强调了指数级能力增长、渐进式对齐进展以及社会和制度准备严重不足之间的紧张关系。

📝 详细摘要

本文对 2026 年初的 AI 安全状况进行了高层评估，围绕四个关键观察展开。首先，AI 能力持续呈指数级提升，且 AI 驱动的开发可能会进一步加速这一进程。其次，尽管对齐技术在进步，但其发展速度未能跟上日益严峻的风险，因此需要的是实证规模化，而非仅仅是理论上的突破。第三，利用模型监控其他模型的能力提供了一条有前景的发展路径，缓解了传统 RLHF 的局限性。最后，作者对社会和制度在应对 AI 颠覆性影响方面的准备不足表示严重担忧，并指出政府的不作为仍然是一个关键瓶颈。

💡 主要观点

- AI 能力呈指数级扩展，且 AI 驱动的开发可能会加速这一进程。 这一趋势在 METR 图表和收入增长等指标中显而易见，表明 AI 正越来越多地被用于加速其自身的开发。

对齐进展相对于日益增长的风险而言是不够的。 虽然模型正变得更加对齐，但 RLHF 等现有技术并未解决对抗稳健性和奖励欺骗等根本问题，因此需要的是实证规模化，而非简单的理论修复。

利用模型监控其他模型是一项关键突破。 这种方法实现了可扩展的监督，并避免了传统 RLHF 的平台期，前提是模型不会演变成具有欺骗性的策划者。

制度和社会准备程度低得危险。 政府和机构未能有效应对生物/网络威胁、经济动荡以及监管需求相关的风险，这使得“暂停 AI 研发”既不太可能实现，也难以奏效。

💬 文章金句

- 我们尚未完全解决对抗稳健性、不诚实和奖励欺骗等挑战，距离高风险应用所需的可靠性和安全性标准仍有很大差距。

可以说，我们已经超越了仅靠可靠且可扩展的人类监督就能实现安全的阶段，但我们仍然能够改进对齐技术。
最糟糕的消息是，社会还没有为 AI 做好准备，而且也没有表现出准备好的迹象。

📊 文章信息

AI 评分：82

来源：LessWrong

作者：Boaz Barak

分类：人工智能

语言：英文

阅读时间：3 分钟

字数：607

标签： AI 安全, 对齐, AI 能力, 社会影响, AI 治理

阅读完整文章

四张伪造图表中的 AI 安全现状 — LessWrong

🤖 問 AI