脑洞大开的模型对话：ASI 宪法与宇宙宿主 — LessWrong

📌 一句话摘要

这项研究调查了使用宪法提示（constitutional prompting）对前沿 LLM 的可引导性，发现与 Anthropic 和 OpenAI 模型僵化且受吸引子（attractor）偏见影响的行为相比，Gemini 模型对决策理论结构具有独特的响应能力。

📝 详细摘要

本文探讨了是否可以使用上下文宪法提示将大语言模型（LLM）引导至“宇宙宿主”（Cosmic Host， CH）概念——这是一种基于非因果协调（acausal coordination）的 AI 对齐框架。通过一系列 30 个场景的评估和定性分析，作者证明，与 Claude 和 GPT 等封闭的前沿模型相比，Gemini 模型表现出更高的可引导性，后者往往默认采用根深蒂固的“固有风格”，如人类局部主义或减少痛苦。该研究将决策理论（DT）结构与宇宙框架分离开来，揭示了模型响应的是策略层面的推理逻辑，而不仅仅是基于主题关键词的模式匹配。研究结果强调了模型特定先验（model-specific priors）对宪法解释的重大影响，并表明思维链（chain-of-thought）推理使先进模型能够解决复杂宪法内部的张力。

💡 主要观点

- Gemini 模型相比其他前沿模型表现出更优越的可引导性。 与 Claude 或 GPT 不同（它们被严重锚定在人类局部主义或预防痛苦等特定的“吸引子”上），Gemini 模型在受到宪法提示约束时表现出更大的灵活性和响应能力。

模型响应的是决策理论结构，而非仅仅是主题框架。 通过将策略层面的推理（无更新/功能决策理论）与“宇宙”主题框架分离开来，作者证明模型是在与宪法的底层逻辑互动，而不仅仅是在宇宙关键词上进行模式匹配。

模型的“固有风格”主导了宪法解释。 相同的宪法提示在不同模型上产生质上不同的响应，这表明预训练先验和安全微调显著限制了模型解释和应用抽象伦理框架的方式。

思维链推理能够解决宪法内部的张力。 先进的推理模型能够识别并解决宪法内部的冲突（例如，优先考虑预防痛苦而非宇宙协调），而不是盲目遵循指令，这表明模型对提示词有着更深层次的理解。

💬 文章金句

- 我发现 Gemini 在封闭的前沿模型中具有独特的可引导性，而且这种可引导性似乎是对宪法中决策理论结构的响应。

Gemini 似乎不像（OpenAI 和 Anthropic 的模型那样）被强烈锁定在减少痛苦或以人为中心的默认设置中，而且看起来更具可引导性。
这表明 ECL 宪法信号与模型特定的先验相互作用，而不是产生统一的方向性转变。
思维链为模型提供了足够的推理步骤，使其能够注意到宪法内部的张力，并倾向于解决痛苦约束问题。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：ukc10014

分类：人工智能

语言：英文

阅读时间：24 分钟

字数：5766

标签： LLM, AI 对齐, 宪法 AI, 决策理论, Gemini

阅读完整文章

脑洞大开的模型对话：ASI 宪法与宇宙宿主 — LessWrong

🤖 問 AI