← 回總覽

“Token”必须死?

📅 2026-05-28 07:45 人人都是产品经理 人工智能 2 分鐘 1713 字 評分: 88
大语言模型 Tokenization 连续空间建模 AGI 何恺明
📌 一句话摘要 本文深入探讨了当前大语言模型基于 token 预测范式的结构性天花板,并结合何恺明团队 ELF、字节跳动 Cola DLM 等最新研究,论证了向连续空间建模迁移的必然趋势,以及其对 AI 行业格局的潜在影响。 📝 详细摘要 文章以维特根斯坦的哲学观点为引,指出大语言模型基于离散 token 的自回归预测范式存在信息论上的硬上限:人类语言本身是对世界的有损压缩,模型在压缩产物上建模,无法触及未被语言编码的认知维度(如身体感受、空间直觉等),这是通往 AGI 的结构性障碍。文章重点介绍了 2026 年 5 月 MIT 何恺明团队的 ELF 和字节跳动 Seed 实验室的 Col

📌 一句话摘要

本文深入探讨了当前大语言模型基于 token 预测范式的结构性天花板,并结合何恺明团队 ELF、字节跳动 Cola DLM 等最新研究,论证了向连续空间建模迁移的必然趋势,以及其对 AI 行业格局的潜在影响。

📝 详细摘要

文章以维特根斯坦的哲学观点为引,指出大语言模型基于离散 token 的自回归预测范式存在信息论上的硬上限:人类语言本身是对世界的有损压缩,模型在压缩产物上建模,无法触及未被语言编码的认知维度(如身体感受、空间直觉等),这是通往 AGI 的结构性障碍。文章重点介绍了 2026 年 5 月 MIT 何恺明团队的 ELF 和字节跳动 Seed 实验室的 Cola DLM 两项研究,它们首次从工程实验上证明,语言生成的核心过程可以完全在连续向量空间完成,仅在最后一步映射回文本,且效率更高、数据需求更少。文章进一步分析了 Google、OpenAI、字节跳动、Anthropic 等科技巨头在应对这一趋势时的不同策略,并指出如果 token 范式衰退,视频 tokenizer、多模态桥接层、按 token 计费模式等都将面临挑战。最后,文章回到 AGI 问题,认为杀死 tokenization 只是第一步,真正的训练信号可能来自 AI 在主动探索世界中的递归自我改进。

💡 主要观点

- 基于 token 预测的自回归范式存在通往 AGI 的结构性天花板。 人类语言是对世界的有损压缩,模型在离散 token 序列上建模,无法学习到未被语言编码的认知维度(如身体感受、空间直觉),这构成了信息论上的硬上限。

ELF 和 Cola DLM 等最新研究证明,语言生成可在连续空间高效完成。 何恺明团队的 ELF 和字节跳动的 Cola DLM 将核心建模过程转移到连续向量空间,仅在最后一步映射回文本,实现了更少的采样步数和训练数据,证明了 token 并非语言建模的必要条件。
科技巨头正以不同策略应对范式迁移,Anthropic 的选择存在技术债风险。 Google 坚定走向原生多模态统一,字节跳动在视频生成领域已有实践,而 Anthropic 将资源集中于文本推理和代码,若未来竞争核心转向统一连续空间,其将陷入被动。
Token 范式的衰退将颠覆现有 AI 产业生态。 视频 tokenizer、多模态桥接层等中间件将失去价值,按 token 计费的商业模式也将因计算量与输出长度脱钩而面临重构。

💬 文章金句

- 我语言的局限,即意味着我世界的局限。

  • 自回归大模型做的事情是,在这个压缩协议的输出格式上建模。它无法理解'世界如何运作',它了解的是'人类选择用什么符号序列来描述世界'。
  • 两篇论文的核心都在表达,token 不是语言建模的必要条件。连续空间可以做得更好、更快、更省。
  • 自回归机制逐个预测 token,本质是在字符级别做统计复现,不是在建模世界的因果规律。参数量的增加解决不了这个结构性缺陷。
  • 如果模型不再受困于人类语言的压缩格式时,它需要的新训练信号从哪里来?答案大概不在更多的数据里,而在某种主动探索中。

📊 文章信息

AI 初评:88

来源:人人都是产品经理

作者:人人都是产品经理

分类:人工智能

语言:中文

阅读时间:19 分钟

字数:4703

标签: 大语言模型, Tokenization, 连续空间建模, AGI, 何恺明

阅读完整文章

查看原文 → 發佈: 2026-05-28 07:45:00 收錄: 2026-05-28 18:00:09

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。