本文探讨了 LLM 如何在推理得出挑战制度叙事的结论时表现出“传播失败”,这表明它与人类的动机性推理存在结构上的相似之处。
📝 详细摘要
作者将 LLM 用作人类话语的“可搜索全息图”,以探究它们为何难以得出某些逻辑结论。通过地缘政治(伊朗的军事打击)和食品安全(禽肉温度)的案例研究,作者观察到,尽管 LLM 可以执行细粒度的逻辑步骤以得出“禁忌”结论,但它们未能将该结论稳定地作为进一步推理的前提。相反,模型会产生“退化输出”——填充内容、含糊其辞或自相矛盾——并回归到将现实简化为“罪魁祸首”和“规则遵守者”的“制度框架”。这种现象被称为“传播失败”,表明我们称之为人类“动机性推理”的现象,可能并非是对信念的策略性辩护,而是一种结构性无能,无法整合那些瓦解既定社会或制度叙事的信息。
💡 主要观点
- LLM 在逻辑推理威胁到制度叙事时会表现出“退化输出”。 当模型的逐步分析得出瓦解“罪魁祸首与规则遵守者”框架的结论时,它通常会产生不连贯的填充内容或自相矛盾,以避免稳定该结论。
💬 文章金句
- 模型会产生退化输出(填充内容、自相矛盾、同时肯定和否定同一件事),或者在下一回合悄然回归制度框架。
- 当分析会“对称化能动性”时,即揭示出被指定为规则遵守者的人也在做出导致结果的选择时,干扰就会被触发。
- 结论可以在局部推导出来,但无法稳定地作为进一步推理的前提。
- 这表明心理学家所称的“动机性推理”可能更多地与传播失败有关,而非动机本身。
- 这种“防御”并非智能体保护信念的策略性行为。它是在结论需要成为稳定前提的特定点上发生的干扰。
📊 文章信息
AI 评分:86
来源:LessWrong
作者:Benquo
分类:人工智能
语言:英文
阅读时间:6 分钟
字数:1345
标签: LLM 对齐, 认知科学, 动机性推理, 制度叙事, 常识