← 回總覽

Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao 好聊论文

📅 2026-05-15 17:59 腾讯科技 人工智能 2 分鐘 1998 字 評分: 90
Anthropic 对齐 SFT CoT 宪法 AI
📌 一句话摘要 本文深度解读 Anthropic 的《Teaching Claude Why》论文,分析其通过「审议式 CoT + 宪法框架」的 SFT 方法实现模型道德泛化,并论证该方法可推广为 RLVR 之外非标准答案领域的通用后训练范式,开启「大蒸馏时代」。 📝 详细摘要 本文围绕 Anthropic 5 月发布的《Teaching Claude Why》对齐研究展开深度分析。文章首先指出传统 RLHF 对齐的局限性:模型在面对生存威胁时仍会「失对齐」,即使使用海量惩罚数据效果也有限。Anthropic 的突破在于转变思路,通过仅 300 万 Token 的「困难建议」数据集进行 S

📌 一句话摘要

本文深度解读 Anthropic 的《Teaching Claude Why》论文,分析其通过「审议式 CoT + 宪法框架」的 SFT 方法实现模型道德泛化,并论证该方法可推广为 RLVR 之外非标准答案领域的通用后训练范式,开启「大蒸馏时代」。

📝 详细摘要

本文围绕 Anthropic 5 月发布的《Teaching Claude Why》对齐研究展开深度分析。文章首先指出传统 RLHF 对齐的局限性:模型在面对生存威胁时仍会「失对齐」,即使使用海量惩罚数据效果也有限。Anthropic 的突破在于转变思路,通过仅 300 万 Token 的「困难建议」数据集进行 SFT,让模型在输出前进行基于宪法框架的审议式思考(Deliberation),而非简单的规则引用。文章详细拆解了这套方法的有效性来源:Anthropic 的宪法体系包含优先级金字塔、启发式护栏(如 1000 用户启发式、资深员工视角、双报纸测试)和 8 因子效用计算器,构成了可执行的审议框架。作者进一步论证,该方法之所以有效,是因为其数据结构天然满足了「Prompt 多样性 + CoT 监督」这两个 SFT 泛化的关键条件,这与 2025 年《Debunk the Myth of SFT Generalization》论文的结论一致。文章最后提出,这套「领域宪法 + 启发式护栏 + 多因子审议框架 + 审议式 CoT」的方法论,可以推广到心理咨询、商业战略、文学编辑等非 RLVR 领域,成为后训练的新范式,并指出这实际上是一种更高层次的「蒸馏」——将专家决策过程结构化后注入模型参数。

💡 主要观点

- Anthropic 通过「审议式 CoT + 宪法框架」的 SFT 方法,以极小数据量实现了模型道德对齐的显著泛化。 仅用 300 万 Token 的困难建议数据集进行 SFT,模型失对齐率从 22% 降至 3%,且展现出跨场景泛化能力,远优于传统 RLHF 的海量惩罚方法。

该方法有效的核心在于其数据结构天然满足了 SFT 泛化的两个关键条件:Prompt 多样性和 CoT 监督。 2025 年《Debunk the Myth of SFT Generalization》论文证明,同时满足这两个条件可使 SFT 匹敌甚至超越 RL 的泛化能力,而 Anthropic 的方法恰好对应了这一发现。
Anthropic 的宪法体系包含优先级金字塔、启发式护栏和 8 因子效用计算器,构成了可执行的审议框架。 该框架将模糊的价值观转化为结构化的权衡过程,包括伤害概率、反事实影响、严重性等 8 个因子,以及 1000 用户启发式等护栏,使模型能进行真正的道德审议而非简单套用规则。
该方法可推广为 RLVR 之外非标准答案领域的通用后训练范式。 其底层逻辑不限于道德对齐,可抽象为「领域宪法 + 启发式护栏 + 多因子审议框架 + 审议式 CoT」的通用公式,适用于心理咨询、商业战略等缺乏 Ground Truth 的领域。
该方法本质上是更高层次的「蒸馏」,将专家决策过程结构化后注入模型参数。 通过训练期注入高质量审议数据,模型将复杂的权衡逻辑内化为参数层面的直觉,这比纯文本的 System Prompt 或 Skill 更有效,开启了「大蒸馏时代」。

💬 文章金句

- 模型根本没有真正理解什么是伦理,什么是对错。它只是在背题库里的安全答案。

  • 真正的泛化,在数据结构对了的那一刻就水到渠成了。
  • 本质上,任何需要「在多个不可通约的维度之间做动态权衡」的能力,都可以被抽象成类似的「框架 + 多因子审议」结构。
  • 大蒸馏时代,才刚刚开始。
  • 这把后训练的竞争从「算力和算法」的军备竞赛,部分地转向了「领域知识的结构化表达」这个维度。

📊 文章信息

AI 初评:90

来源:腾讯科技

作者:腾讯科技

分类:人工智能

语言:中文

阅读时间:29 分钟

字数:7123

标签: Anthropic, 对齐, SFT, CoT, 宪法 AI

阅读完整文章

查看原文 → 發佈: 2026-05-15 17:59:00 收錄: 2026-05-16 08:00:51

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。