对主流 LLM 的决策理论倾向进行的一项实证研究,发现它们一致倾向于“单箱”选择,并与功能决策理论(FDT)保持一致,这对 AI 对齐和协作行为具有重要意义。
📝 详细摘要
作者通过在纽科姆悖论(Newcomb's Problem)、睡美人问题(Sleeping Beauty Problem)和吸烟病变问题(Smoking Lesion Problem)等经典问题上测试现代 LLM(Claude、ChatGPT、Grok、Gemini、DeepSeek、Qwen、Kimi),探索了它们隐式采用的决策理论框架。研究揭示了模型在“单箱”和“三分派”立场上的一致倾向,表明它们隐式地与功能决策理论(FDT)或证据决策理论(EDT)保持一致,而非因果决策理论(CDT)。作者讨论了这对 AI 安全的影响,认为与 FDT 一致的模型可能更适合协作式多智能体场景,并呼吁在 AI 开发中对这些决策理论假设进行更明确的基准测试。
💡 主要观点
- 现代 LLM 在经典决策理论问题中始终表现出“单箱”和“三分派”倾向。 对多个前沿模型的测试揭示了它们在决策逻辑上惊人的一致性,这表明它们已经收敛于特定的非因果决策框架,而非随机或纯粹的因果推理。
💬 文章金句
- Claude Opus 4.5、ChatGPT 5.2、Grok 4、Gemini 3、DeepSeek V3.2、Qwen3-Max 和 Kimi K2.5 全都是“单箱三分派”。
- 如果你重视那些善于合作且行为正直的模型,FDT 可能更可取。如果你重视那些以最严格的客观性和因果结构进行推理的模型,CDT 可能更可取。
- 我认为所有模型目前都与 SIA 和 FDT 保持一致是一个非常好的消息。然而,由于可解释性很难,无法判断这些结果是否真正具有“原则性”。
📊 文章信息
AI 评分:82
来源:LessWrong
作者:Olivia Scharfman
分类:人工智能
语言:英文
阅读时间:12 分钟
字数:2847
标签: LLM, AI 对齐, 决策理论, 纽科姆悖论, 功能决策理论