← 回總覽

“Token”必须死?

📅 2026-05-25 12:19 腾讯科技 人工智能 2 分鐘 1521 字 評分: 90
Token 自回归模型 连续空间建模 何恺明 字节跳动
📌 一句话摘要 本文深入探讨了基于 token 的自回归语言模型的结构性天花板,并介绍了何恺明团队和字节跳动 Seed 实验室提出的连续空间语言建模新范式,认为这可能是通往 AGI 的更高路径。 📝 详细摘要 文章从维特根斯坦的语言哲学出发,指出大语言模型基于离散 token 的自回归架构存在结构性天花板:人类语言本身是对世界的有损压缩,模型在压缩产物上建模无法触及未被语言编码的认知维度。2026 年 5 月,MIT 何恺明团队的 ELF 和字节跳动 Seed 实验室的 Cola DLM 几乎同时发布论文,首次从工程实验上证明语言生成的核心计算可以转移到连续 embedding 或 lat

📌 一句话摘要

本文深入探讨了基于 token 的自回归语言模型的结构性天花板,并介绍了何恺明团队和字节跳动 Seed 实验室提出的连续空间语言建模新范式,认为这可能是通往 AGI 的更高路径。

📝 详细摘要

文章从维特根斯坦的语言哲学出发,指出大语言模型基于离散 token 的自回归架构存在结构性天花板:人类语言本身是对世界的有损压缩,模型在压缩产物上建模无法触及未被语言编码的认知维度。2026 年 5 月,MIT 何恺明团队的 ELF 和字节跳动 Seed 实验室的 Cola DLM 几乎同时发布论文,首次从工程实验上证明语言生成的核心计算可以转移到连续 embedding 或 latent 空间完成,仅在最后一步映射回文本,且效果更好、速度更快、数据需求更少。文章进一步分析了 Google、OpenAI、Anthropic、字节跳动等巨头在统一多模态连续空间方向上的不同策略,以及 Ilya Sutskever 和 Yann LeCun 的独立押注。最后指出,如果 token 范式衰退,视频 tokenizer、多模态桥接产品、按 token 收费的商业模式将面临挑战,而通往 AGI 的关键可能在于主动探索世界的递归自我改进(RSI)。

💡 主要观点

- 基于 token 的自回归语言模型存在结构性天花板。 人类语言是对世界的有损压缩,模型在离散 token 序列上建模无法触及未被语言编码的认知维度(如身体感受、空间直觉),这是通往 AGI 的根本障碍。

连续空间语言建模新范式被工程实验验证。 何恺明团队的 ELF 和字节 Seed 团队的 Cola DLM 证明,语言生成的核心计算可在连续向量空间完成,仅在最后一步映射回文字,效果优于离散模型且数据需求更少。
科技巨头在统一多模态连续空间方向上策略分化。 Google 最坚定地走向原生多模态统一;OpenAI 和字节跳动在探索但有所取舍;Anthropic 押注文本推理和代码,可能积累技术债。
token 范式衰退将冲击现有商业模式。 视频 tokenizer、多模态桥接产品、按 token 收费的定价模式都将面临挑战,因为连续空间下输出长度与计算量脱钩。

💬 文章金句

- 我语言的局限,即意味着我世界的局限。

  • 自回归机制逐个预测 token,本质是在字符级别做统计复现,不是在建模世界的因果规律。
  • 如果 AI 的'语言'就是离散 token 序列,那么它的'世界'永远被困在 token 能表达的范围内。
  • 生成只是模拟,预测才是理解。
  • 答案大概不在更多的数据里,而在某种主动探索中——在世界中行动,承受后果,从反馈中学习。

📊 文章信息

AI 初评:90

来源:腾讯科技

作者:腾讯科技

分类:人工智能

语言:中文

阅读时间:19 分钟

字数:4724

标签: Token, 自回归模型, 连续空间建模, 何恺明, 字节跳动

阅读完整文章

查看原文 → 發佈: 2026-05-25 12:19:00 收錄: 2026-05-25 16:00:43

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。