美团 LongCat-Next：把图像语音全当成 Token 预测的原生多模态新路径

📌 一句话摘要

美团 LongCat 团队发布原生多模态模型 LongCat-Next，通过首创的 DiNA 离散原生自回归架构，将文本、图像、语音统一建模为离散 Token，打破了离散建模的性能天花板。

📝 详细摘要

本文深度解析了美团 LongCat 团队最新的研究成果 LongCat-Next。该模型摒弃了传统的「语言模型+多模态外挂」的拼凑架构，采用了名为 DiNA（Discrete Native Autoregressive）的离散原生自回归架构。通过自研的视觉分词器 dNaViT 和语音 Tokenizer，LongCat-Next 将图像和语音信号转化为离散 Token，实现了在单一自回归框架下对所有模态的统一建模。实验证明，离散建模的性能瓶颈并非源于离散化本身，而是受限于数据规模；随着数据量增加，离散模型可展现出媲美甚至超越连续模型的性能。目前，该模型及其分词器已正式开源。

💡 主要观点

- 采用 DiNA 架构实现真正的原生多模态统一。 通过将文本、图像、语音全部转化为离散 Token，模型在内部长出了统一的多模态表征空间，无需模态间的「翻译对齐」，所有模态共享同一套参数和损失函数。

打破离散视觉建模存在「性能天花板」的传统认知。 研究表明，离散模型与连续模型的性能差距会随数据规模扩大而持续收敛，证明离散建模是通往 AGI 的一条具备高度可扩展性的路径。

实现理解与生成任务的深度协同。 在统一的 Token 预测范式下，理解（图像预测文字）与生成（文字预测图像）在数学形式上完全一致，实验显示理解能力的提升能显著带动生成质量。

自研 dNaViT 分词器解决离散化信息丢失问题。 利用 8 层残差向量量化（RVQ）和双轨解码器，实现了高达 28 倍的像素空间压缩，同时保留了从宏观布局到微调纹理的完整细节。

💬 文章金句

- 把图片、语音，统统当成 Token 来预测。

离散建模并不存在内在性能天花板，其上限更多取决于数据规模与表征质量。
当不同模态都用同一套离散 Token 体系后，模型不再需要为不同模态、不同任务分别设计机制，而是可以用一套可扩展的方式去建模整个世界。
模态这个东西本身，也正在消失。

📊 文章信息

AI 评分：89

来源：量子位

作者：一水

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5757

标签：原生多模态, LongCat-Next, DiNA 架构, 离散自回归, 美团 AI

阅读完整文章

美团 LongCat-Next：把图像语音全当成 Token 预测的原生多模态新路径

🤖 問 AI