Token 必须死？

📌 一句话摘要

本文从维特根斯坦的语言哲学切入，结合何恺明团队与字节 Seed 的最新论文，论证逐 token 预测范式存在结构性天花板，并梳理了 Google、OpenAI、Anthropic 等巨头在连续空间建模方向上的战略布局。

📝 详细摘要

文章以「Token 必须死？」为标题，系统探讨了大语言模型当前主流范式（自回归逐 token 预测）的局限性。作者从维特根斯坦的语言哲学出发，指出人类语言本身是一种有损压缩协议，在离散 token 序列上建模无法触及未被语言编码的认知维度（如身体感受、空间直觉、因果干预的具身反馈），这是通往 AGI 的结构性天花板。

文章核心论据来自 2026 年 5 月 MIT 何恺明团队的 ELF 论文与字节 Seed 实验室的 Cola DLM 论文，两者均证明语言生成的核心过程可以在连续向量空间中完成，仅在最后一步映射回文本，且效果更好、效率更高。作者进而分析了 Google（原生多模态统一）、OpenAI（曲折整合）、字节跳动（工业规模验证）、Anthropic（押注文本推理）等巨头的战略选择，以及 Ilya Sutskever 和 Yann LeCun 的独立押注。

文章最后指出，如果 token 范式衰退，视频 tokenizer、多模态桥接产品、按 token 计费的商业模式将面临冲击，并引出「模型需要从主动探索中学习」的 RSI 方向作为后续讨论主题。

💡 主要观点

- 逐 token 预测范式存在信息论上的硬上限。 人类语言是有损压缩协议，在离散 token 序列上建模无法还原被丢弃的认知维度（如身体感受、空间直觉），这是通往 AGI 的结构性天花板。

ELF 与 Cola DLM 证明连续空间建模更高效。 何恺明团队的 ELF 和字节 Seed 的 Cola DLM 均将语言生成的核心过程转移到连续向量空间，仅在最后一步映射回文本，用更少数据与步数达到或超越离散模型效果。

科技巨头在连续空间方向上的战略布局分化。 Google 坚定走原生多模态统一路线；OpenAI 整合多模态但暂退视频生成；字节跳动具备工业规模验证条件；Anthropic 押注文本推理，可能积累技术债。

token 范式衰退将冲击现有产业链。 视频 tokenizer、多模态桥接产品、按 token 计费的商业模式将面临根本性挑战，衡量 AI 商业价值的定价体系可能被重塑。

💬 文章金句

- 我语言的局限，即意味着我世界的局限。

自回归机制逐个预测 token，本质是在字符级别做统计复现，不是在建模世界的因果规律。
如果 AI 的「语言」就是离散 token 序列，那么它的「世界」永远被困在 token 能表达的范围内。

📊 文章信息

AI 初评：88

来源：腾讯研究院

作者：腾讯研究院

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4677

标签： LLM, AI Agent, 多模态AI, 模型训练与推理, AI 商业化

阅读完整文章

Token 必须死？

🤖 問 AI