何恺明首个语言模型：105M 参数，不走 GPT 自回归老路

📌 一句话摘要

何恺明团队提出 ELF 连续扩散语言模型，通过在连续 embedding 空间完成全部去噪过程、仅在最后一步离散化，以 105M 参数和 45B 训练 token 在生成质量上超越主流离散扩散模型。

📝 详细摘要

本文报道了何恺明团队在语言模型领域的最新研究成果——ELF（Embedded Language Flows）。与当前主流的自回归语言模型不同，ELF 采用连续扩散语言模型路线，核心创新在于将整个生成过程完全保留在连续的 embedding 空间中，仅在最后一步才将连续表示重新离散化为 token。这一设计解决了此前连续扩散方法需要反复对齐连续表示与离散 token 的问题。实验表明，ELF 仅用 105M 参数、45B 训练 token 和 32 步采样，就在 OpenWebText 上取得了 24 的生成困惑度，显著优于需要 1024 步采样的主流离散扩散模型。在 WMT14 机器翻译和 XSum 文本摘要等条件生成任务上，ELF 也稳定超越现有扩散语言模型，甚至超过部分自回归基线。文章还介绍了 ELF 的技术细节，包括使用 T5 预训练 encoder 进行 token 到连续表示的映射、采用 x-prediction 的 Flow Matching 去噪策略、以及将去噪网络与解码器共享参数的独特设计。

💡 主要观点

- ELF 在连续 embedding 空间完成全部去噪过程，仅在最后一步离散化。 不同于此前需要在每一步对齐 token 的连续扩散方法，ELF 将去噪过程完全保留在连续空间，最后一步才通过共享参数的解码器将 embedding 映射回 token，实现了连续与离散的彻底分离。

ELF 以 105M 参数和 45B 训练 token 超越主流离散扩散模型。 在 OpenWebText 上，ELF 仅用 32 步采样即达到 24 的生成困惑度，而主流离散扩散模型通常需要 1024 步采样才能接近这一水平，且训练数据量普遍在 500B 以上。

ELF 采用 x-prediction 的 Flow Matching 去噪策略。 模型直接预测干净 embedding 而非速度场，在高维表示上更稳定，且天然与最后一步预测干净 token 的目标对齐，避免了 v-prediction 在权重共享时的性能下降。

💬 文章金句

- ELF 第一次证明了一件事：连续的方法，不但能跑，而且效果不错。

问题可能不是「语言必须离散」，问题可能是：前人根本没有让连续路线，连续到底。
连续就是连续，离散就是离散。
ELF 在生成质量、采样效率和训练成本之间，实现了很强的 trade-off。

📊 文章信息

AI 初评：87

来源：量子位

作者：henry

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4052

标签：扩散语言模型, ELF, 何恺明, 连续扩散, Flow Matching

阅读完整文章

何恺明首个语言模型：105M 参数，不走 GPT 自回归老路

🤖 問 AI