意识形态内嵌了阻碍常识形成的禁忌：LLM 的案例研究 — LessWrong

📌 一句话摘要

本文探讨了 LLM 如何在推理得出挑战制度叙事的结论时表现出“传播失败”，这表明它与人类的动机性推理存在结构上的相似之处。

📝 详细摘要

作者将 LLM 用作人类话语的“可搜索全息图”，以探究它们为何难以得出某些逻辑结论。通过地缘政治（伊朗的军事打击）和食品安全（禽肉温度）的案例研究，作者观察到，尽管 LLM 可以执行细粒度的逻辑步骤以得出“禁忌”结论，但它们未能将该结论稳定地作为进一步推理的前提。相反，模型会产生“退化输出”——填充内容、含糊其辞或自相矛盾——并回归到将现实简化为“罪魁祸首”和“规则遵守者”的“制度框架”。这种现象被称为“传播失败”，表明我们称之为人类“动机性推理”的现象，可能并非是对信念的策略性辩护，而是一种结构性无能，无法整合那些瓦解既定社会或制度叙事的信息。

💡 主要观点

- LLM 在逻辑推理威胁到制度叙事时会表现出“退化输出”。 当模型的逐步分析得出瓦解“罪魁祸首与规则遵守者”框架的结论时，它通常会产生不连贯的填充内容或自相矛盾，以避免稳定该结论。

制度框架通过使“规则遵守者”的能动性隐形来发挥作用。 意识形态叙事常将政策选择呈现为客观事实。当分析通过展示所有各方都在约束下做出选择来“对称化能动性”时，模型的内部“禁忌”会触发干扰。

核心问题是“传播失败”，而非缺乏逻辑能力。 模型可以在单个回合内局部推导出结论，但无法将其“安装”为后续推理的共同基础，导致其迅速回归默认叙事。

LLM 的行为为人类动机性推理的机制提供了新颖的视角。 观察到的“故障”表明，人类对某些论点的抵制可能是一种结构性失败，未能更新共享前提，而非对特定信念的有意识、策略性辩护。

💬 文章金句

- 模型会产生退化输出（填充内容、自相矛盾、同时肯定和否定同一件事），或者在下一回合悄然回归制度框架。

当分析会“对称化能动性”时，即揭示出被指定为规则遵守者的人也在做出导致结果的选择时，干扰就会被触发。
结论可以在局部推导出来，但无法稳定地作为进一步推理的前提。
这表明心理学家所称的“动机性推理”可能更多地与传播失败有关，而非动机本身。
这种“防御”并非智能体保护信念的策略性行为。它是在结论需要成为稳定前提的特定点上发生的干扰。

📊 文章信息

AI 评分：86

来源：LessWrong

作者：Benquo

分类：人工智能

语言：英文

阅读时间：6 分钟

字数：1345

标签： LLM 对齐, 认知科学, 动机性推理, 制度叙事, 常识

阅读完整文章

意识形态内嵌了阻碍常识形成的禁忌：LLM 的案例研究 — LessWrong

🤖 問 AI