何恺明团队提出 ELF 连续扩散语言模型,通过在连续 embedding 空间完成全部去噪过程、仅在最后一步离散化,以 105M 参数和 45B 训练 token 在生成质量上超越主流离散扩散模型。
📝 详细摘要
本文报道了何恺明团队在语言模型领域的最新研究成果——ELF(Embedded Language Flows)。与当前主流的自回归语言模型不同,ELF 采用连续扩散语言模型路线,核心创新在于将整个生成过程完全保留在连续的 embedding 空间中,仅在最后一步才将连续表示重新离散化为 token。这一设计解决了此前连续扩散方法需要反复对齐连续表示与离散 token 的问题。实验表明,ELF 仅用 105M 参数、45B 训练 token 和 32 步采样,就在 OpenWebText 上取得了 24 的生成困惑度,显著优于需要 1024 步采样的主流离散扩散模型。在 WMT14 机器翻译和 XSum 文本摘要等条件生成任务上,ELF 也稳定超越现有扩散语言模型,甚至超过部分自回归基线。文章还介绍了 ELF 的技术细节,包括使用 T5 预训练 encoder 进行 token 到连续表示的映射、采用 x-prediction 的 Flow Matching 去噪策略、以及将去噪网络与解码器共享参数的独特设计。
💡 主要观点
- ELF 在连续 embedding 空间完成全部去噪过程,仅在最后一步离散化。 不同于此前需要在每一步对齐 token 的连续扩散方法,ELF 将去噪过程完全保留在连续空间,最后一步才通过共享参数的解码器将 embedding 映射回 token,实现了连续与离散的彻底分离。
💬 文章金句
- ELF 第一次证明了一件事:连续的方法,不但能跑,而且效果不错。
- 问题可能不是「语言必须离散」,问题可能是:前人根本没有让连续路线,连续到底。
- 连续就是连续,离散就是离散。
- ELF 在生成质量、采样效率和训练成本之间,实现了很强的 trade-off。
📊 文章信息
AI 初评:87
来源:量子位
作者:henry
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4052
标签: 扩散语言模型, ELF, 何恺明, 连续扩散, Flow Matching