应该设立 1 亿美元的资助金以实现 AI 安全自动化 — LessWrong

📌 一句话摘要

作者提出了一种新的、激进的资助机制，旨在资助利用大规模自动化 AI 劳动力进行 AI 安全研究的项目，并指出鉴于 AGI 的实现时间紧迫，目前的资助方式过于保守。

📝 详细摘要

本文主张 AI 安全资助模式的范式转移，提议设立“自动化 AI 安全扩展资助金”，以支持大规模、由智能体驱动的安全研究。作者认为，目前的资助水平不足以应对紧迫的 AGI 时间线，并提出了一个四阶段的资助结构——从初步的可扩展性验证到 1 亿美元以上的全面实施。该提案涵盖了自动化红队测试、监控和概念对齐等具体研究领域，同时探讨了古德哈特定律（Goodhart's law）和能力外部性等潜在风险。

💡 主要观点

- 当前的 AI 安全资助过于保守，需要激进地扩大规模。 鉴于 AGI 的实现时间紧迫，作者认为资助方应投入更多资金用于自动化安全研究，从传统的基于薪酬的资助转向计算密集型、由智能体驱动的流水线。

需要一种结构化的多阶段资助机制，以降低风险并扩展安全研究规模。 提议的四阶段模型——从初步的可扩展性验证到 1 亿美元以上的部署——允许资助方根据实证结果验证进展并逐步扩大投资，从而克服当前的犹豫不决。

自动化劳动力可应用于特定的高杠杆安全任务。 作者指出，监控、自动化黑盒/白盒审计以及概念对齐是智能体扩展的主要候选领域，在这些领域中，计算资源可以直接转化为安全收益。

💬 文章金句

- 我认为资助方应该大力激励那些能够投入 1 亿美元以上计算或 API 预算用于自动化 AI 劳动力的安全研究，这些投入能直接且显著地转化为安全收益。

明确的意图是，如果有人设法找到了构建可扩展安全流水线的方法，他们可以确信自己能够以较短的周期从资助方那里获得资金，从而大规模运行这些流水线。
我认为在过去 5 年里，AI 安全资助方分配的资金太少了，而且他们的支出一直过于保守。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：Marius Hobbhahn

分类：人工智能

语言：英文

阅读时间：10 分钟

字数：2479

标签： AI 安全, AI 智能体, 资助金, AGI 对齐, 自动化研究

阅读完整文章

应该设立 1 亿美元的资助金以实现 AI 安全自动化 — LessWrong

🤖 問 AI