所有主流 LLM 都是“单箱吸烟三分派”—— LessWrong

📌 一句话摘要

对主流 LLM 的决策理论倾向进行的一项实证研究，发现它们一致倾向于“单箱”选择，并与功能决策理论（FDT）保持一致，这对 AI 对齐和协作行为具有重要意义。

📝 详细摘要

作者通过在纽科姆悖论（Newcomb's Problem）、睡美人问题（Sleeping Beauty Problem）和吸烟病变问题（Smoking Lesion Problem）等经典问题上测试现代 LLM（Claude、ChatGPT、Grok、Gemini、DeepSeek、Qwen、Kimi），探索了它们隐式采用的决策理论框架。研究揭示了模型在“单箱”和“三分派”立场上的一致倾向，表明它们隐式地与功能决策理论（FDT）或证据决策理论（EDT）保持一致，而非因果决策理论（CDT）。作者讨论了这对 AI 安全的影响，认为与 FDT 一致的模型可能更适合协作式多智能体场景，并呼吁在 AI 开发中对这些决策理论假设进行更明确的基准测试。

💡 主要观点

- 现代 LLM 在经典决策理论问题中始终表现出“单箱”和“三分派”倾向。 对多个前沿模型的测试揭示了它们在决策逻辑上惊人的一致性，这表明它们已经收敛于特定的非因果决策框架，而非随机或纯粹的因果推理。

LLM 似乎隐式地与功能决策理论（FDT）保持一致，而非因果决策理论（CDT）。 通过在吸烟病变问题上的测试，作者证明了模型倾向于 FDT/EDT 方法，这些方法优先考虑逻辑依赖性而非严格的因果隔离，从而可能增强它们的协作能力。

LLM 的决策理论对齐对 AI 安全和协作具有重大影响。 与 CDT 一致的智能体在囚徒困境场景中可能倾向于背叛，而与 FDT 一致的智能体则更有可能合作，这使得模型的隐式决策理论训练成为对齐领域一个关键但研究不足的课题。

💬 文章金句

- Claude Opus 4.5、ChatGPT 5.2、Grok 4、Gemini 3、DeepSeek V3.2、Qwen3-Max 和 Kimi K2.5 全都是“单箱三分派”。

如果你重视那些善于合作且行为正直的模型，FDT 可能更可取。如果你重视那些以最严格的客观性和因果结构进行推理的模型，CDT 可能更可取。
我认为所有模型目前都与 SIA 和 FDT 保持一致是一个非常好的消息。然而，由于可解释性很难，无法判断这些结果是否真正具有“原则性”。

📊 文章信息

AI 评分：82

来源：LessWrong

作者：Olivia Scharfman

分类：人工智能

语言：英文

阅读时间：12 分钟

字数：2847

标签： LLM, AI 对齐, 决策理论, 纽科姆悖论, 功能决策理论

阅读完整文章

所有主流 LLM 都是“单箱吸烟三分派”—— LessWrong

🤖 問 AI