← 回總覽

何恺明首个语言模型:105M 参数,不走 GPT 自回归老路

📅 2026-05-13 09:23 henry 人工智能 2 分鐘 1532 字 評分: 87
扩散语言模型 ELF 何恺明 连续扩散 Flow Matching
📌 一句话摘要 何恺明团队提出 ELF 连续扩散语言模型,通过在连续 embedding 空间完成全部去噪过程、仅在最后一步离散化,以 105M 参数和 45B 训练 token 在生成质量上超越主流离散扩散模型。 📝 详细摘要 本文报道了何恺明团队在语言模型领域的最新研究成果——ELF(Embedded Language Flows)。与当前主流的自回归语言模型不同,ELF 采用连续扩散语言模型路线,核心创新在于将整个生成过程完全保留在连续的 embedding 空间中,仅在最后一步才将连续表示重新离散化为 token。这一设计解决了此前连续扩散方法需要反复对齐连续表示与离散 token

📌 一句话摘要

何恺明团队提出 ELF 连续扩散语言模型,通过在连续 embedding 空间完成全部去噪过程、仅在最后一步离散化,以 105M 参数和 45B 训练 token 在生成质量上超越主流离散扩散模型。

📝 详细摘要

本文报道了何恺明团队在语言模型领域的最新研究成果——ELF(Embedded Language Flows)。与当前主流的自回归语言模型不同,ELF 采用连续扩散语言模型路线,核心创新在于将整个生成过程完全保留在连续的 embedding 空间中,仅在最后一步才将连续表示重新离散化为 token。这一设计解决了此前连续扩散方法需要反复对齐连续表示与离散 token 的问题。实验表明,ELF 仅用 105M 参数、45B 训练 token 和 32 步采样,就在 OpenWebText 上取得了 24 的生成困惑度,显著优于需要 1024 步采样的主流离散扩散模型。在 WMT14 机器翻译和 XSum 文本摘要等条件生成任务上,ELF 也稳定超越现有扩散语言模型,甚至超过部分自回归基线。文章还介绍了 ELF 的技术细节,包括使用 T5 预训练 encoder 进行 token 到连续表示的映射、采用 x-prediction 的 Flow Matching 去噪策略、以及将去噪网络与解码器共享参数的独特设计。

💡 主要观点

- ELF 在连续 embedding 空间完成全部去噪过程,仅在最后一步离散化。 不同于此前需要在每一步对齐 token 的连续扩散方法,ELF 将去噪过程完全保留在连续空间,最后一步才通过共享参数的解码器将 embedding 映射回 token,实现了连续与离散的彻底分离。

ELF 以 105M 参数和 45B 训练 token 超越主流离散扩散模型。 在 OpenWebText 上,ELF 仅用 32 步采样即达到 24 的生成困惑度,而主流离散扩散模型通常需要 1024 步采样才能接近这一水平,且训练数据量普遍在 500B 以上。
ELF 采用 x-prediction 的 Flow Matching 去噪策略。 模型直接预测干净 embedding 而非速度场,在高维表示上更稳定,且天然与最后一步预测干净 token 的目标对齐,避免了 v-prediction 在权重共享时的性能下降。

💬 文章金句

- ELF 第一次证明了一件事:连续的方法,不但能跑,而且效果不错。

  • 问题可能不是「语言必须离散」,问题可能是:前人根本没有让连续路线,连续到底。
  • 连续就是连续,离散就是离散。
  • ELF 在生成质量、采样效率和训练成本之间,实现了很强的 trade-off。

📊 文章信息

AI 初评:87

来源:量子位

作者:henry

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4052

标签: 扩散语言模型, ELF, 何恺明, 连续扩散, Flow Matching

阅读完整文章

查看原文 → 發佈: 2026-05-13 09:23:32 收錄: 2026-05-13 12:00:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。