← 回總覽

「Token」必须死?

📅 2026-05-30 17:00 36氪 人工智能 2 分鐘 1635 字 評分: 88
Token 大语言模型 AGI 连续空间 自回归
📌 一句话摘要 本文深入探讨了基于离散 Token 的自回归大语言模型在通往 AGI 道路上的结构性天花板,并结合何恺明团队 ELF、字节 Cola DLM 等最新研究,论证了连续空间建模作为下一代范式的可能性。 📝 详细摘要 文章以维特根斯坦的语言哲学为引,指出大语言模型基于离散 Token 的范式存在结构性天花板:人类语言本身是对连续认知的有损压缩,在压缩产物上建模无法还原被丢弃的世界结构。作者梳理了 2026 年 5 月 MIT 何恺明团队 ELF 和字节 Seed 团队 Cola DLM 两篇关键论文,它们证明语言生成的核心过程可以在连续向量空间中完成,仅在最后一步映射回文本,且效

📌 一句话摘要

本文深入探讨了基于离散 Token 的自回归大语言模型在通往 AGI 道路上的结构性天花板,并结合何恺明团队 ELF、字节 Cola DLM 等最新研究,论证了连续空间建模作为下一代范式的可能性。

📝 详细摘要

文章以维特根斯坦的语言哲学为引,指出大语言模型基于离散 Token 的范式存在结构性天花板:人类语言本身是对连续认知的有损压缩,在压缩产物上建模无法还原被丢弃的世界结构。作者梳理了 2026 年 5 月 MIT 何恺明团队 ELF 和字节 Seed 团队 Cola DLM 两篇关键论文,它们证明语言生成的核心过程可以在连续向量空间中完成,仅在最后一步映射回文本,且效率更高、数据需求更少。文章进一步分析了 Google、OpenAI、Anthropic、字节跳动等巨头在统一多模态连续空间方向上的战略选择,以及 Ilya Sutskever 和 Yann LeCun 的独立押注。最后讨论了 Token 范式衰退可能带来的连锁影响:视频 Tokenizer 公司、多模态产品叙事、按 Token 收费的商业模式都将面临挑战。文章结尾提出,真正的 AGI 可能需要模型通过主动探索世界、从反馈中学习,而非仅仅在人类语言数据上建模。

💡 主要观点

- 基于离散 Token 的自回归范式存在通往 AGI 的结构性天花板。 人类语言是对连续认知的有损压缩,在压缩产物上建模无法还原被丢弃的世界结构,如身体感受、空间直觉等从未被语言编码的维度。

何恺明团队 ELF 和字节 Cola DLM 证明了连续空间建模的可行性。 两篇论文表明,语言生成的核心过程可在连续向量空间中完成,仅在最后一步映射回文本,且效率更高、数据需求更少,Scaling 曲线健康。
科技巨头在统一多模态连续空间方向上做出不同战略选择。 Google 坚定走原生多模态统一路线,Anthropic 押注文本推理积累技术债,字节跳动具备在工业规模验证连续空间架构的独特优势。
Token 范式衰退将冲击视频 Tokenizer、多模态产品叙事和按 Token 收费模式。 当核心计算迁移到连续空间,视频离散编码的价值降低,多模态成为默认配置,输出长度与计算量脱钩使 Token 计价失去意义。

💬 文章金句

- 我语言的局限,即意味着我世界的局限。

  • 自回归大模型做的事情是,在这个压缩协议的输出格式上建模。它无法理解'世界如何运作',它了解的是'人类选择用什么符号序列来描述世界'。
  • 两篇论文的核心都在表达,token 不是语言建模的必要条件。连续空间可以做得更好、更快、更省。
  • 自回归机制逐个预测 token,本质是在字符级别做统计复现,不是在建模世界的因果规律。参数量的增加解决不了这个结构性缺陷。
  • 如果模型不再受困于人类语言的压缩格式时,它需要的新训练信号从哪里来?答案大概不在更多的数据里,而在某种主动探索中——在世界中行动,承受后果,从反馈中学习。

📊 文章信息

AI 初评:88

来源:36氪

作者:36氪

分类:人工智能

语言:中文

阅读时间:19 分钟

字数:4643

标签: Token, 大语言模型, AGI, 连续空间, 自回归

阅读完整文章

查看原文 → 發佈: 2026-05-30 17:00:00 收錄: 2026-05-31 10:00:39

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。