美团 LongCat 团队发布原生多模态模型 LongCat-Next,通过首创的 DiNA 离散原生自回归架构,将文本、图像、语音统一建模为离散 Token,打破了离散建模的性能天花板。
📝 详细摘要
本文深度解析了美团 LongCat 团队最新的研究成果 LongCat-Next。该模型摒弃了传统的「语言模型+多模态外挂」的拼凑架构,采用了名为 DiNA(Discrete Native Autoregressive)的离散原生自回归架构。通过自研的视觉分词器 dNaViT 和语音 Tokenizer,LongCat-Next 将图像和语音信号转化为离散 Token,实现了在单一自回归框架下对所有模态的统一建模。实验证明,离散建模的性能瓶颈并非源于离散化本身,而是受限于数据规模;随着数据量增加,离散模型可展现出媲美甚至超越连续模型的性能。目前,该模型及其分词器已正式开源。
💡 主要观点
- 采用 DiNA 架构实现真正的原生多模态统一。 通过将文本、图像、语音全部转化为离散 Token,模型在内部长出了统一的多模态表征空间,无需模态间的「翻译对齐」,所有模态共享同一套参数和损失函数。
💬 文章金句
- 把图片、语音,统统当成 Token 来预测。
- 离散建模并不存在内在性能天花板,其上限更多取决于数据规模与表征质量。
- 当不同模态都用同一套离散 Token 体系后,模型不再需要为不同模态、不同任务分别设计机制,而是可以用一套可扩展的方式去建模整个世界。
- 模态这个东西本身,也正在消失。
📊 文章信息
AI 评分:89
来源:量子位
作者:一水
分类:人工智能
语言:中文
阅读时间:24 分钟
字数:5757
标签: 原生多模态, LongCat-Next, DiNA 架构, 离散自回归, 美团 AI