AI 现在经常能完成大量易于验证的软件工程任务，我缩短了对 AI 发展的时间预期 —— LessWrong

📌 一句话摘要

作者大幅缩短了对 AI 发展的时间预期，原因在于观察到当前模型通过迭代式、测试驱动的工作流，在“易于验证且成本低廉”的软件工程任务中表现出色。

📝 详细摘要

作者详细更新了其对 AI 发展的时间预期，指出 AI 能力的进步速度显著加快，特别是在“易于验证且成本低廉”（ES）以及“无需太多构思的 ES 任务”（ESNI）这类软件工程任务中。通过利用迭代循环——即 AI 开发测试套件并针对这些套件优化解决方案——模型可以实现超指数级的进步。作者认为这种能力加速了 AI 的研发，尽管“品味”和“判断力”仍然是重大的瓶颈。文中还包含了作者在自主安全研究方面的个人实验反思，并提供了关于 AI 研发平权（AI R&D parity）和 AGI 里程碑的最新预测。

💡 主要观点

- 迭代循环使得 ES 任务能够实现超指数级进步。 当任务易于验证时，AI 可以开发测试套件并迭代优化其解决方案，从而能够从错误中恢复，并达到随时间超线性扩展的性能水平。

AI 发展的时间预期已被缩短。 由于观察到 Opus 4.5/4.6 和 Codex 5.2/5.3 等模型性能的飞跃，作者提高了 2028 年实现 AI 研发全面自动化的概率。

“品味”和“判断力”仍然是主要瓶颈。 虽然原始的智能体能力和编码技能正在提高，但 AI 在需要高水平判断力、“品味”和非迭代式构思的任务上仍然很吃力，而这些对于更广泛的 AI 研发至关重要。

脚手架（Scaffolding）是倍增器，而非根本原因。 虽然更好的脚手架和提示词（Prompting）能提高性能，但进步的根本驱动力在于任务分布本身的可检查性和可迭代性。

💬 文章金句

- 核心在于，你可以让 AI 开发一个测试套件/基准测试集，然后它就可以花费大量时间，通过针对该评估集优化其解决方案来取得进展。

我认为我们已经完全进入了这些 ESNI 任务在 50% 可靠性时间跨度上的超指数级进步阶段。
AI 在许多领域（通常是那些更难进行强化学习的领域）的“品味”和“判断力”相当差，而且这方面的改进速度远慢于通用智能体能力。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：ryan_greenblatt

分类：人工智能

语言：英文

阅读时间：21 分钟

字数：5056

标签： AI 发展时间预期, AGI, 软件工程, 智能体工作流, AI 研发

阅读完整文章

AI 现在经常能完成大量易于验证的软件工程任务，我缩短了对 AI 发展的时间预期 —— LessWrong

🤖 問 AI