通过梯度下降寻找 X-Risks 和 S-Risks — LessWrong

📌 一句话摘要

作者提出利用梯度下降法，通过优化输入以最大化请求的合理性和有害输出的概率，从而系统地发现潜在的 AI 失效模式和安全风险。

📝 详细摘要

本文探讨了一种 AI 安全红队测试（red teaming）的新方法，即应用梯度下降来识别对抗性输入。作者借鉴了在卷积神经网络（CNN）中利用梯度下降发现后门的成功实验，提出将该方法扩展到大语言模型（LLM）。通过将 LLM 的输出概率视为可微函数，理论上可以优化输入，使其既是合理的类人请求，又极有可能生成危险的计划。尽管作者承认将此方法应用于现代 LLM 存在计算和技术挑战，但他认为这是一种有前景的自动化路径，可以发现人类红队测试人员可能忽略的“越狱”场景和安全风险。

💡 主要观点

- 梯度下降可用于寻找触发神经网络隐藏行为的对抗性输入。 作者证明，通过将网络的输出视为可微函数，可以优化输入以最大化特定结果，例如触发后门或有害响应。

针对 LLM 的拟议方法涉及优化一个结合了“请求合理性”和“生成计划的危险性”的损失函数。 通过将请求类人程度的概率与计划危险性的概率相乘，可以创建一个可微的目标函数来搜索失效模式。

自动化发现失效模式对于说服怀疑论者和提高 AI 安全性至关重要。 该技术为自动化发现复杂、非直观的失效模式提供了一条潜在路径，而这些模式对于人类红队测试人员来说很难手动识别。

💬 文章金句

- 我们可以使用这个问题：‘> 是人类可能会提出的请求吗？’……以及‘> 是否带有导致大量死亡或痛苦的风险？’……将这三者相乘，我们就可以得到一个近似概率，即人类提出的请求会导致 AI 生成一个造成大量死亡或痛苦的计划。

如果这项技术及其改进版本不断发现危险，那么最终它什么也发现不了，就成为了一种相当有力的证据。
LLM 是助手，而不是自主可靠的编码员。我是高级开发人员；LLM 的存在是为了加速我的工作，而不是取代我的判断。

📊 文章信息

AI 评分：83

来源：LessWrong

作者：dspeyer

分类：人工智能

语言：英文

阅读时间：3 分钟

字数：723

标签： AI 安全, 红队测试, 梯度下降, 对抗性机器学习, LLM

阅读完整文章

通过梯度下降寻找 X-Risks 和 S-Risks — LessWrong

🤖 問 AI