← 回總覽

意识形态内嵌了阻碍常识形成的禁忌:LLM 的案例研究 — LessWrong

📅 2026-03-13 01:46 Benquo 人工智能 2 分鐘 1262 字 評分: 86
LLM 对齐 认知科学 动机性推理 制度叙事 常识
📌 一句话摘要 本文探讨了 LLM 如何在推理得出挑战制度叙事的结论时表现出“传播失败”,这表明它与人类的动机性推理存在结构上的相似之处。 📝 详细摘要 作者将 LLM 用作人类话语的“可搜索全息图”,以探究它们为何难以得出某些逻辑结论。通过地缘政治(伊朗的军事打击)和食品安全(禽肉温度)的案例研究,作者观察到,尽管 LLM 可以执行细粒度的逻辑步骤以得出“禁忌”结论,但它们未能将该结论稳定地作为进一步推理的前提。相反,模型会产生“退化输出”——填充内容、含糊其辞或自相矛盾——并回归到将现实简化为“罪魁祸首”和“规则遵守者”的“制度框架”。这种现象被称为“传播失败”,表明我们称之为人类“动

📌 一句话摘要

本文探讨了 LLM 如何在推理得出挑战制度叙事的结论时表现出“传播失败”,这表明它与人类的动机性推理存在结构上的相似之处。

📝 详细摘要

作者将 LLM 用作人类话语的“可搜索全息图”,以探究它们为何难以得出某些逻辑结论。通过地缘政治(伊朗的军事打击)和食品安全(禽肉温度)的案例研究,作者观察到,尽管 LLM 可以执行细粒度的逻辑步骤以得出“禁忌”结论,但它们未能将该结论稳定地作为进一步推理的前提。相反,模型会产生“退化输出”——填充内容、含糊其辞或自相矛盾——并回归到将现实简化为“罪魁祸首”和“规则遵守者”的“制度框架”。这种现象被称为“传播失败”,表明我们称之为人类“动机性推理”的现象,可能并非是对信念的策略性辩护,而是一种结构性无能,无法整合那些瓦解既定社会或制度叙事的信息。

💡 主要观点

- LLM 在逻辑推理威胁到制度叙事时会表现出“退化输出”。 当模型的逐步分析得出瓦解“罪魁祸首与规则遵守者”框架的结论时,它通常会产生不连贯的填充内容或自相矛盾,以避免稳定该结论。

制度框架通过使“规则遵守者”的能动性隐形来发挥作用。 意识形态叙事常将政策选择呈现为客观事实。当分析通过展示所有各方都在约束下做出选择来“对称化能动性”时,模型的内部“禁忌”会触发干扰。
核心问题是“传播失败”,而非缺乏逻辑能力。 模型可以在单个回合内局部推导出结论,但无法将其“安装”为后续推理的共同基础,导致其迅速回归默认叙事。
LLM 的行为为人类动机性推理的机制提供了新颖的视角。 观察到的“故障”表明,人类对某些论点的抵制可能是一种结构性失败,未能更新共享前提,而非对特定信念的有意识、策略性辩护。

💬 文章金句

- 模型会产生退化输出(填充内容、自相矛盾、同时肯定和否定同一件事),或者在下一回合悄然回归制度框架。

  • 当分析会“对称化能动性”时,即揭示出被指定为规则遵守者的人也在做出导致结果的选择时,干扰就会被触发。
  • 结论可以在局部推导出来,但无法稳定地作为进一步推理的前提。
  • 这表明心理学家所称的“动机性推理”可能更多地与传播失败有关,而非动机本身。
  • 这种“防御”并非智能体保护信念的策略性行为。它是在结论需要成为稳定前提的特定点上发生的干扰。

📊 文章信息

AI 评分:86

来源:LessWrong

作者:Benquo

分类:人工智能

语言:英文

阅读时间:6 分钟

字数:1345

标签: LLM 对齐, 认知科学, 动机性推理, 制度叙事, 常识

阅读完整文章

查看原文 → 發佈: 2026-03-13 01:46:44 收錄: 2026-03-13 04:00:41

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。