我们已经输了吗？第一部分：2024 年的计划 — LessWrong

📌 一句话摘要

本文反思了 2024 年的 AI 安全策略，详细阐述了社区对自愿承诺、AI 辅助对齐研究以及对 Anthropic 战略投资的依赖，旨在降低生存风险。

📝 详细摘要

在这篇反思文章中，作者回顾了 2024 年 AI 安全社区的战略“计划”。该战略建立在三大支柱之上：通过自愿性条件承诺和红线干预来争取时间；利用 AI 进行对齐研究所需的认知劳动；以及将 AI 的辅助转化为具体的工程和政策解决方案。作者强调了其中的关键假设，例如全面停止开发在现实中不可行，以及必须利用 AI 来解决其自身的对齐问题。尽管社区在很大程度上执行了这一计划，但作者指出，由于治理失败、激进的 AI 发展时间表以及社区对 Anthropic 的高度依赖，到 2026 年时形势已发生重大变化，并为后续部分的批判性评估奠定了基础。

💡 主要观点

- 2024 年的 AI 安全策略侧重于争取时间并利用 AI 进行对齐。 该计划优先考虑自愿承诺和红线干预，以推迟危险能力的出现，同时利用现有的 AI 系统来加速对齐和控制技术的研究。

社区在假设全面停止开发是不可能的前提下开展工作。 该战略承认 AI 的进步不可阻挡，因此转而关注有条件的安全性承诺，并利用 AI 辅助劳动来解决人类无法独自完成的技术对齐问题。

对 Anthropic 的战略投资是安全计划的核心支柱。 社区将 Anthropic 视为技术研究、开创性安全承诺以及争取话语权以影响 AI 发展轨迹的关键阵地。

💬 文章金句

- 主流方法是使用自愿性条件承诺（RSP）和红线式的治理干预。

我们既没有时间也没有能力独自解决对齐的技术问题；我们需要利用 AI 辅助来完成这项工作。
在很大程度上，社区确实执行了该计划；社区在上述每种方法上都投入了巨大的努力。

📊 文章信息

AI 评分：86

来源：LessWrong

作者：LawrenceC

分类：人工智能

语言：英文

阅读时间：4 分钟

字数：842

标签： AI 安全, 生存风险, 对齐, AI 治理, Anthropic

阅读完整文章

我们已经输了吗？第一部分：2024 年的计划 — LessWrong

🤖 問 AI