对齐问题到底有多难？（我的个人见解） — LessWrong

📌 一句话摘要

本文通过将估算的“人年”投入与蒸汽机和阿波罗计划等历史基准进行对比，量化了 AI 对齐的难度，认为这是一个巨大但可能解决的工程挑战。

📝 详细摘要

这篇分析文章试图在从“微不足道”到“不可能”的光谱中定位 AI 对齐的难度。通过使用费米估算来计算劳动力“人年”，作者将当前的 AI 安全研究现状（估计约为 3，600–27，000 人年）与历史先例进行了对比。分析表明，虽然对齐明显比蒸汽机所需的安全性工作（约 20，000 人年）更难，但尚未达到阿波罗计划（约 350 万人年）那种惊人的复杂程度。作者反对将其视为“P vs. NP”级别的抽象难题，认为对齐可以通过严谨的多层工程来实现，而非依赖单一的数学范式转移。尽管作者对近期大语言模型（LLM）对齐取得的进展表示谨慎乐观，但也警告称目前的进展速度可能不足以赶上 AGI/ASI 的时间表，因此有必要大幅加速该领域的发展和资源分配。

💡 主要观点

- 通过“人年”投入指标量化对齐难度。 通过估算历史工程壮举中投入的总人力，作者提供了一个切实的框架，将对齐争论从模糊的直觉转向比较历史分析。

就投入而言，AI 安全目前与蒸汽机后期的安全性工作相当。 随着约 10，000 人年的投入，该领域已度过了“微不足道”阶段，但仍比阿波罗计划的资源强度低几个数量级，表明我们正处于中早期发展阶段。

超级对齐可能是一个工程挑战，而非数学范式转移。 作者假设对齐可能类似于核能或航空安全——需要层层预防措施和故障模式分析——而不是需要像证明 P vs. NP 那样单一的抽象突破。

近期 LLM 的进展缓解了安全理论中一些历史性的“致命性”担忧。 现有模型对齐的实证成功表明，控制超级智能的一些理论障碍可能不像以前担心的那样难以逾越，尽管将这些解决方案扩展到 ASI 仍是一个关键的不确定性。

💬 文章金句

- 如果有明确证据表明对齐是一个类似阿波罗计划规模的问题，将极大地推动 AI 安全研究资金和重视程度的大幅增加。

我觉得“AI 安全不比蒸汽机安全更难”有点不可信……但他们显然比我更乐观。
大多数领域的大多数安全工作都涉及应用一层又一层又一层的预防措施……直到最终达到足够安全。
我不放心让 AGI 在无监督的情况下自行对齐，所以我建议我们的目标是将该领域的发展速度提高一倍以上。
“急左转”论点……似乎通常假设一旦目标变得过于聪明，旧方法就会失效。

📊 文章信息

AI 评分：82

来源：LessWrong

作者：RogerDearnaley

分类：人工智能

语言：英文

阅读时间：93 分钟

字数：23096

标签： AI 安全, AI 对齐, 费米估算, 超级对齐, AGI 时间表

阅读完整文章

对齐问题到底有多难？（我的个人见解） — LessWrong

🤖 問 AI