← 回總覽

美团 LongCat-Next:把图像语音全当成 Token 预测的原生多模态新路径

📅 2026-04-03 14:24 一水 人工智能 2 分鐘 1255 字 評分: 89
原生多模态 LongCat-Next DiNA 架构 离散自回归 美团 AI
📌 一句话摘要 美团 LongCat 团队发布原生多模态模型 LongCat-Next,通过首创的 DiNA 离散原生自回归架构,将文本、图像、语音统一建模为离散 Token,打破了离散建模的性能天花板。 📝 详细摘要 本文深度解析了美团 LongCat 团队最新的研究成果 LongCat-Next。该模型摒弃了传统的「语言模型+多模态外挂」的拼凑架构,采用了名为 DiNA(Discrete Native Autoregressive)的离散原生自回归架构。通过自研的视觉分词器 dNaViT 和语音 Tokenizer,LongCat-Next 将图像和语音信号转化为离散 Token,实现

📌 一句话摘要

美团 LongCat 团队发布原生多模态模型 LongCat-Next,通过首创的 DiNA 离散原生自回归架构,将文本、图像、语音统一建模为离散 Token,打破了离散建模的性能天花板。

📝 详细摘要

本文深度解析了美团 LongCat 团队最新的研究成果 LongCat-Next。该模型摒弃了传统的「语言模型+多模态外挂」的拼凑架构,采用了名为 DiNA(Discrete Native Autoregressive)的离散原生自回归架构。通过自研的视觉分词器 dNaViT 和语音 Tokenizer,LongCat-Next 将图像和语音信号转化为离散 Token,实现了在单一自回归框架下对所有模态的统一建模。实验证明,离散建模的性能瓶颈并非源于离散化本身,而是受限于数据规模;随着数据量增加,离散模型可展现出媲美甚至超越连续模型的性能。目前,该模型及其分词器已正式开源。

💡 主要观点

- 采用 DiNA 架构实现真正的原生多模态统一。 通过将文本、图像、语音全部转化为离散 Token,模型在内部长出了统一的多模态表征空间,无需模态间的「翻译对齐」,所有模态共享同一套参数和损失函数。

打破离散视觉建模存在「性能天花板」的传统认知。 研究表明,离散模型与连续模型的性能差距会随数据规模扩大而持续收敛,证明离散建模是通往 AGI 的一条具备高度可扩展性的路径。
实现理解与生成任务的深度协同。 在统一的 Token 预测范式下,理解(图像预测文字)与生成(文字预测图像)在数学形式上完全一致,实验显示理解能力的提升能显著带动生成质量。
自研 dNaViT 分词器解决离散化信息丢失问题。 利用 8 层残差向量量化(RVQ)和双轨解码器,实现了高达 28 倍的像素空间压缩,同时保留了从宏观布局到微调纹理的完整细节。

💬 文章金句

- 把图片、语音,统统当成 Token 来预测。

  • 离散建模并不存在内在性能天花板,其上限更多取决于数据规模与表征质量。
  • 当不同模态都用同一套离散 Token 体系后,模型不再需要为不同模态、不同任务分别设计机制,而是可以用一套可扩展的方式去建模整个世界。
  • 模态这个东西本身,也正在消失。

📊 文章信息

AI 评分:89

来源:量子位

作者:一水

分类:人工智能

语言:中文

阅读时间:24 分钟

字数:5757

标签: 原生多模态, LongCat-Next, DiNA 架构, 离散自回归, 美团 AI

阅读完整文章

查看原文 → 發佈: 2026-04-03 14:24:01 收錄: 2026-04-03 16:00:45

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。