使用经过验证的编译器实现安全的递归自我改进 — LessWrong

📌 一句话摘要

本文提出使用经过形式化验证的自编译系统作为具体的工程沙箱，以研究 AI 安全挑战，重点关注递归自我改进、非确定性和侧信道漏洞。

📝 详细摘要

本文认为，经过形式化验证的编译器为研究 AI 安全提供了一个实用的、以工程为中心的测试平台，特别是针对与递归自我改进相关的风险。通过将编译器视为可以自我改进的系统，研究人员可以应用严格的形式化方法，确保安全属性在迭代过程中得以维持。作者强调了该领域两个关键挑战：管理系统规范中的非确定性，以及缓解侧信道攻击（如计时泄露）。提出的解决方案包括定义一个安全的、确定性行为的“菜单”，允许系统在预定义的、经过验证的范围内进行优化。这种方法弥合了抽象的 AI 安全哲学与具体软件工程之间的鸿沟，为实证研究自我改进系统中的对齐问题提供了一条途径。

💡 主要观点

- 经过验证的编译器作为 AI 安全沙箱 编译器提供了一个具体的、工程密集型的环境来研究递归自我改进，使研究人员能够从哲学层面的 AI 安全讨论转向实证的、可验证的软件工程。

递归自我改进的风险 核心挑战在于，早期系统中的微小对齐偏差可能会在自我改进过程中被放大；形式化方法提供了一种在这些迭代中从数学上保证安全属性的方法。

解决非确定性和侧信道问题 作者指出，非确定性和侧信道攻击是自我改进系统中的关键安全风险，并建议系统应被限制在安全的、确定性行为的“菜单”中，而不是允许不受限制的非确定性。

💬 文章金句

- 形式化验证允许在所有可能的情况下进行预先评估，从而显著缩短反馈周期。

使安全保证变得困难的典型现象是递归自我改进，即 AI 系统设计它们自己的继任者。
可复用的技巧不是走向“含糊不清”的非确定性或僵化确定性规范这两个极端，而是仔细构建一个可接受的确定性函数菜单，并让系统选择其中一个。

📊 文章信息

AI 评分：87

来源：LessWrong

作者：Adam Chlipala

分类：人工智能

语言：英文

阅读时间：14 分钟

字数：3271

标签： AI 安全, 形式化验证, 递归自我改进, 编译器, 信息流

阅读完整文章

使用经过验证的编译器实现安全的递归自我改进 — LessWrong

🤖 問 AI