← 回總覽

“Token”必须死?

📅 2026-05-25 22:03 虎嗅APP 人工智能 2 分鐘 1522 字 評分: 88
大语言模型 Tokenization 连续空间 AGI 何恺明
📌 一句话摘要 本文深入探讨了基于 Token 的自回归大语言模型的结构性天花板,并介绍了何恺明团队 ELF 和字节跳动 Cola DLM 等将语言生成核心计算迁移至连续空间的最新研究,预示着 AI 范式可能正在发生转变。 📝 详细摘要 文章从维特根斯坦的语言哲学出发,指出大语言模型基于离散 Token 的预测范式存在结构性天花板:人类语言本身是思维的有损压缩,模型在压缩产物上建模,无法触及未被语言编码的物理世界和感官体验。文章重点介绍了 2026 年 5 月 MIT 何恺明团队的 ELF 和字节跳动 Seed 团队的 Cola DLM 两篇论文,它们首次通过工程实验证明,语言生成的核心过

📌 一句话摘要

本文深入探讨了基于 Token 的自回归大语言模型的结构性天花板,并介绍了何恺明团队 ELF 和字节跳动 Cola DLM 等将语言生成核心计算迁移至连续空间的最新研究,预示着 AI 范式可能正在发生转变。

📝 详细摘要

文章从维特根斯坦的语言哲学出发,指出大语言模型基于离散 Token 的预测范式存在结构性天花板:人类语言本身是思维的有损压缩,模型在压缩产物上建模,无法触及未被语言编码的物理世界和感官体验。文章重点介绍了 2026 年 5 月 MIT 何恺明团队的 ELF 和字节跳动 Seed 团队的 Cola DLM 两篇论文,它们首次通过工程实验证明,语言生成的核心过程可以在连续向量空间中完成,无需逐 Token 预测,且效率更高、效果更好。文章进一步分析了 Google、OpenAI、字节跳动、Anthropic 等科技巨头在“去 Token 化”方向上的不同策略,并指出如果 Token 范式衰退,视频 Tokenizer、多模态对齐中间层以及按 Token 收费的商业模式都将受到冲击。最后,文章回到“大语言模型能否通往 AGI”的终极问题,认为逃离 Token 空间只是第一步,模型需要从主动探索和物理反馈中学习新的信号。

💡 主要观点

- 自回归大模型基于离散 Token 的预测范式存在结构性天花板。 人类语言是思维的有损压缩协议,模型在压缩产物上建模,无法理解未被语言编码的物理世界、感官体验和因果直觉,这限制了通往 AGI 的可能性。

何恺明团队 ELF 和字节跳动 Cola DLM 证明语言生成可在连续空间高效完成。 这两篇论文首次通过工程实验表明,语言生成的核心计算可以迁移到连续向量空间,仅在最后一步映射回文本,在效率和效果上均优于传统离散 Token 模型。
科技巨头在“去 Token 化”方向上采取了不同策略。 Google 致力于构建原生多模态统一模型;字节跳动在视频生成领域已有类似实践;Anthropic 则押注文本推理,可能积累技术债;OpenAI 策略尚不明确。
Token 范式的衰退将冲击现有 AI 产业链。 视频 Tokenizer、多模态对齐中间层以及按 Token 收费的商业模式都可能面临挑战,因为连续空间模型的计算成本与输出长度脱钩。

💬 文章金句

- 我语言的局限,即意味着我世界的局限。

  • token 不是语言建模的必要条件。连续空间可以做得更好、更快、更省。
  • 自回归机制逐个预测 token,本质是在字符级别做统计复现,不是在建模世界的因果规律。
  • 如果模型不再受困于人类语言的压缩格式时,它需要的新训练信号从哪里来?

📊 文章信息

AI 初评:88

来源:虎嗅APP

作者:虎嗅APP

分类:人工智能

语言:中文

阅读时间:19 分钟

字数:4729

标签: 大语言模型, Tokenization, 连续空间, AGI, 何恺明

阅读完整文章

查看原文 → 發佈: 2026-05-25 22:03:00 收錄: 2026-05-26 06:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。