何恺明和字节 Seed 跳入同一条河流

📌 一句话摘要

何恺明团队与字节 Seed 几乎同时发表论文，从不同路径提出将语言模型生成过程中的离散化步骤推迟到最后一刻，在连续潜空间完成思考，挑战了自回归语言模型的核心假设。

📝 详细摘要

本文深入解读了 2026 年 5 月几乎同时发表的两篇重磅论文：何恺明团队的 ELF 和字节 Seed 的 Cola DLM。两篇论文从截然不同的路径出发，却殊途同归，共同指向一个核心设计：将语言模型生成过程中的「离散化」动作推迟到最后一刻，让模型在连续潜空间中进行「思考」和「规划」，最后才映射到具体的离散词。文章首先介绍了何恺明的学术背景，强调 ResNet 等里程碑式贡献。随后指出，过去连续扩散语言模型失败的关键在于「逐步离散化」（per-step discretization），即每去噪一步都要回头交差，导致模型无法真正在连续语义中揉捏。ELF 的解法是极简主义：冻结 T5 编码器、无独立解码器、只用 MSE 损失，以 105M 参数和 32 步采样超越了需要 1024 步的基线模型。Cola DLM 则更为宏大，通过 Text VAE 将「想清楚要说什么」和「怎么说出来」显式拆开，在概念空间生成后再翻译成文字。文章还讨论了这两篇论文的深层意义：质疑「语言天生离散所以模型必须在离散空间生成」和「自回归是语言模型最自然的形式」这两个长期被视为必然的假设，并指出这可能意味着评估体系、多模态架构乃至算力门槛的变革。

💡 主要观点

- 何恺明团队的 ELF 与字节 Seed 的 Cola DLM 殊途同归，核心共识是将离散化推迟到生成最后一刻。 两篇论文从图像生成和语言建模的不同路径出发，都提出让模型在连续潜空间完成思考过程，只在最后一步才映射到离散词，从而克服了传统自回归模型「走一步算一步」的局限。

过去连续扩散语言模型失败的关键在于「逐步离散化」步骤。 之前的模型每去噪一步都要被强行拉回词表计算损失，这相当于用铅笔打草稿时每写一笔都要立刻誊写，导致模型无法真正在连续语义中揉捏。ELF 和 Cola 同时砍掉了这个动作。

ELF 的设计哲学是极简，证明「连续 DLM 必须复杂」的共识可能是错的。 ELF 冻结 T5 编码器、无独立解码器、只用 MSE 损失，以 105M 参数和 32 步采样就超越了需要 1024 步的基线模型，表明过去的设计可能大部分是冗余的。

Cola DLM 将「思考」与「说话」在架构上显式拆开，重新定义语言建模。 通过 Text VAE 将文字压缩为「概念向量」，再由扩散 Transformer 在概念空间生成，最后解码为文字，实现了「先想清楚要说什么，再翻译成字」的范式。

这两篇论文共同质疑了自回归语言模型的两个底层假设。 一是「语言是离散的所以模型必须在离散空间生成」，二是「自回归是语言模型最自然的形式」。它们指出这些是工程选择而非物理必然，为语言模型开辟了新的可能性。

💬 文章金句

- 没有何恺明那篇论文（ResNet），就没有今天我们用的任何一个大模型。

把「离散化」这个动作推迟到生成的最后一刻。中间所有的「思考」都在连续空间里发生，直到最后一步才决定每个位置该是哪个具体的词。
现有的连续 DLM 不 work，不是连续本身不行，是大家在它身上加了太多东西。
自回归语言建模只是设计空间里自洽的一小角。表示绑死在 token 表面，训练目标是直接对 token 做最大似然估计，整套环境围绕符号性文本展开。我们这篇 paper 同时改了这三件事。
AR-only 的局面这个月被划开了第二道口子。第一道是 2025 年 LLaDA、Mercury 带头的离散扩散派系。这一次的口子更深，因为它质疑的是「语言天生离散」这个最底层的假设。

📊 文章信息

AI 初评：90

来源：花叔

作者：花叔

分类：人工智能

语言：中文

阅读时间：33 分钟

字数：8017

标签：何恺明, 字节Seed, Cola DLM, ELF, 连续扩散语言模型

阅读完整文章

何恺明和字节 Seed 跳入同一条河流

🤖 問 AI