所有技术对齐方案都是摸黑前行 — LessWrong

📌 一句话摘要

文章认为，AI 对齐目前是一个缺乏实证反馈的“一次性”问题，因此需要转向迭代工程框架，以降低超智能系统失准的风险。

📝 详细摘要

这篇分析文章探讨了 AI 安全领域的根本危机：即无法将传统科学方法应用于尚未存在的超智能系统。作者认为，所有当前的技术对齐策略——无论是经验性的（对当前模型进行迭代测试）还是理论性的——本质上都是“摸黑前行”，因为它们依赖于未经证实的希望，即解决方案能够泛化到分布之外。为了超越这种不稳定的“一次性”赌博，作者提出将 AI 安全转变为一门高风险的工程学科。这包括创建一个“迭代世界”，在这个世界中，通过预测性形式化和持续评估来最大化泛化能力；同时，通过增量扩展、强大的社会防御以及显著减缓 AI 发展速度来最小化泛化“距离”，从而实现有意义的反馈循环。

💡 主要观点

- 超智能 AI 对齐目前缺乏科学方法中必不可少的反馈循环。 与常规科学不同，我们无法在超智能系统建成之前对其进行假设检验，这使得进展衡量变得主观而非数据驱动。

所有技术对齐方案都存在一个结构性弱点：它们是“摸黑前行”，依赖于代理。 无论是使用可解释性还是对弱模型进行经验测试，每个方案都假设在没有超智能的世界中找到的解决方案，在超智能出现后仍然有效。

目标应该是将对齐问题从一次性事件转变为迭代工程任务。 通过引导我们进入可以在有限范围内迭代超人模型的场景，我们减少了安全成功所需的飞跃幅度。

提高泛化能力的机会需要构建预测性理论模型和持续评估。 我们需要能够准确预测模型在能力跃迁中行为的形式化方法，以及一个用于持续监控以尽早发现失准的社会基础设施。

减少泛化距离涉及增量扩展和构建强大的社会防御。 限制模型跃迁的幅度并创建“强化”基础设施，确保不可避免的失败是可承受的，并为下一次迭代提供所需的反馈。

💬 文章金句

- 所有技术对齐方案都是摸黑前行。我们正在将解决方案...应用于一个缺乏关键反馈的世界，并希望它们能够泛化。

如果我们想让超智能 AI 安全，我们需要大幅减少这些步骤的幅度。我们必须学会如何对整个问题进行迭代。
如果无法将它们根植于现实，无法检验预测和证伪理论，那就不是科学。
AI 杀死我们的世界，通常是由于某种原因，迭代设计循环失败的世界。
所有计划都处于鲁莽的谱系上，唯一真正安全的方案是根本不构建超智能 AI。

📊 文章信息

AI 评分：84

来源：LessWrong

作者：Richard Juggins

分类：人工智能

语言：英文

阅读时间：12 分钟

字数：2755

标签： AI 对齐, 超智能, AI 安全, 科学方法, 泛化

阅读完整文章

所有技术对齐方案都是摸黑前行 — LessWrong

🤖 問 AI