基于心智理论（ToM）的 AI 安全研究议程 — LessWrong

📌 一句话摘要

本文提出将心智理论（ToM）作为 AI 安全研究的概念框架，认为对他人信念和意图进行建模对于解决智能体生态系统的脆弱性、AI 操纵风险以及奖励错误指定（reward misspecification）至关重要。

📝 详细摘要

本文探讨了心智理论（ToM）作为 AI 安全研究基础视角的潜力。作者认为，当前的 LLM 缺乏有效建模他人心理状态的能力，从而产生了重大的安全漏洞。文章概述了三个 ToM 能力至关重要的具体研究领域：通过识别对抗性意图来增强多智能体生态系统的鲁棒性；研究 AI 驱动的操纵机制；以及通过从静态偏好优化转向对人类信念和欲望的动态推理来改进对齐。作者承认，虽然“ToM”可能不是描述 LLM 行为的完美技术术语，但它作为构建未来安全研究的有价值的概念约定，具有重要意义。

💡 主要观点

- ToM 对于稳健的智能体生态系统至关重要。 当前的模型无法适应对抗性交互。更好的 ToM 能力将使智能体能够识别恶意意图，从而创造一种有利于防御而非利用的结构性不对称。

AI 操纵风险仍未得到充分定义。 AI 说服带来的威胁经常被提及，但人们对其理解尚浅。研究 ToM 有助于识别个性化说服背后的具体机制，从而开发必要的防御措施。

ToM 能够实现动态对齐。 当前的对齐方法将偏好视为静态、独立的信号。而基于 ToM 的方法会将标签视为潜在“信念-欲望”特征的证据，从而实现动态推理过程，而非一次性的优化。

💬 文章金句

- 理解模型中的 ToM 可以帮助我们缓解变革性 AI 带来的三个高风险问题：脆弱的智能体生态系统、AI 操纵风险以及奖励错误指定。

基于 ToM 的方法会将每个标签视为更广泛的“信念-欲望”特征的证据，不仅推断出选择了什么，还推断出为什么选择。
即使我们假设模型所做的并非严格意义上的 ToM，我上述概述的研究议程依然成立。

📊 文章信息

AI 评分：86

来源：LessWrong

作者：Andrés Cotton

分类：人工智能

语言：英文

阅读时间：6 分钟

字数：1370

标签： AI 安全, 心智理论 (ToM), 对齐, 多智能体系统, 奖励错误指定

阅读完整文章

基于心智理论（ToM）的 AI 安全研究议程 — LessWrong

🤖 問 AI