← 回總覽

应该设立 1 亿美元的资助金以实现 AI 安全自动化 — LessWrong

📅 2026-04-04 02:44 Marius Hobbhahn 人工智能 1 分鐘 1114 字 評分: 88
AI 安全 AI 智能体 资助金 AGI 对齐 自动化研究
📌 一句话摘要 作者提出了一种新的、激进的资助机制,旨在资助利用大规模自动化 AI 劳动力进行 AI 安全研究的项目,并指出鉴于 AGI 的实现时间紧迫,目前的资助方式过于保守。 📝 详细摘要 本文主张 AI 安全资助模式的范式转移,提议设立“自动化 AI 安全扩展资助金”,以支持大规模、由智能体驱动的安全研究。作者认为,目前的资助水平不足以应对紧迫的 AGI 时间线,并提出了一个四阶段的资助结构——从初步的可扩展性验证到 1 亿美元以上的全面实施。该提案涵盖了自动化红队测试、监控和概念对齐等具体研究领域,同时探讨了古德哈特定律(Goodhart's law)和能力外部性等潜在风险。 💡

📌 一句话摘要

作者提出了一种新的、激进的资助机制,旨在资助利用大规模自动化 AI 劳动力进行 AI 安全研究的项目,并指出鉴于 AGI 的实现时间紧迫,目前的资助方式过于保守。

📝 详细摘要

本文主张 AI 安全资助模式的范式转移,提议设立“自动化 AI 安全扩展资助金”,以支持大规模、由智能体驱动的安全研究。作者认为,目前的资助水平不足以应对紧迫的 AGI 时间线,并提出了一个四阶段的资助结构——从初步的可扩展性验证到 1 亿美元以上的全面实施。该提案涵盖了自动化红队测试、监控和概念对齐等具体研究领域,同时探讨了古德哈特定律(Goodhart's law)和能力外部性等潜在风险。

💡 主要观点

- 当前的 AI 安全资助过于保守,需要激进地扩大规模。 鉴于 AGI 的实现时间紧迫,作者认为资助方应投入更多资金用于自动化安全研究,从传统的基于薪酬的资助转向计算密集型、由智能体驱动的流水线。

需要一种结构化的多阶段资助机制,以降低风险并扩展安全研究规模。 提议的四阶段模型——从初步的可扩展性验证到 1 亿美元以上的部署——允许资助方根据实证结果验证进展并逐步扩大投资,从而克服当前的犹豫不决。
自动化劳动力可应用于特定的高杠杆安全任务。 作者指出,监控、自动化黑盒/白盒审计以及概念对齐是智能体扩展的主要候选领域,在这些领域中,计算资源可以直接转化为安全收益。

💬 文章金句

- 我认为资助方应该大力激励那些能够投入 1 亿美元以上计算或 API 预算用于自动化 AI 劳动力的安全研究,这些投入能直接且显著地转化为安全收益。

  • 明确的意图是,如果有人设法找到了构建可扩展安全流水线的方法,他们可以确信自己能够以较短的周期从资助方那里获得资金,从而大规模运行这些流水线。
  • 我认为在过去 5 年里,AI 安全资助方分配的资金太少了,而且他们的支出一直过于保守。

📊 文章信息

AI 评分:88

来源:LessWrong

作者:Marius Hobbhahn

分类:人工智能

语言:英文

阅读时间:10 分钟

字数:2479

标签: AI 安全, AI 智能体, 资助金, AGI 对齐, 自动化研究

阅读完整文章

查看原文 → 發佈: 2026-04-04 02:44:05 收錄: 2026-04-04 06:00:39

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。