本文从维特根斯坦的语言哲学切入,结合何恺明团队与字节 Seed 的最新论文,论证逐 token 预测范式存在结构性天花板,并梳理了 Google、OpenAI、Anthropic 等巨头在连续空间建模方向上的战略布局。
📝 详细摘要
文章以「Token 必须死?」为标题,系统探讨了大语言模型当前主流范式(自回归逐 token 预测)的局限性。作者从维特根斯坦的语言哲学出发,指出人类语言本身是一种有损压缩协议,在离散 token 序列上建模无法触及未被语言编码的认知维度(如身体感受、空间直觉、因果干预的具身反馈),这是通往 AGI 的结构性天花板。
文章核心论据来自 2026 年 5 月 MIT 何恺明团队的 ELF 论文与字节 Seed 实验室的 Cola DLM 论文,两者均证明语言生成的核心过程可以在连续向量空间中完成,仅在最后一步映射回文本,且效果更好、效率更高。作者进而分析了 Google(原生多模态统一)、OpenAI(曲折整合)、字节跳动(工业规模验证)、Anthropic(押注文本推理)等巨头的战略选择,以及 Ilya Sutskever 和 Yann LeCun 的独立押注。
文章最后指出,如果 token 范式衰退,视频 tokenizer、多模态桥接产品、按 token 计费的商业模式将面临冲击,并引出「模型需要从主动探索中学习」的 RSI 方向作为后续讨论主题。
💡 主要观点
- 逐 token 预测范式存在信息论上的硬上限。 人类语言是有损压缩协议,在离散 token 序列上建模无法还原被丢弃的认知维度(如身体感受、空间直觉),这是通往 AGI 的结构性天花板。
💬 文章金句
- 我语言的局限,即意味着我世界的局限。
- 自回归机制逐个预测 token,本质是在字符级别做统计复现,不是在建模世界的因果规律。
- 如果 AI 的「语言」就是离散 token 序列,那么它的「世界」永远被困在 token 能表达的范围内。
📊 文章信息
AI 初评:88
来源:腾讯研究院
作者:腾讯研究院
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4677
标签: LLM, AI Agent, 多模态AI, 模型训练与推理, AI 商业化