LLaDA2.0-Uni 通过离散扩散架构打破自回归范式,实现了多模态理解、生成与编辑的原生统一,并开源了 16B MoE 模型。
📝 详细摘要
本文介绍了 inclusionAI 开源的 LLaDA2.0-Uni 模型,这是 LLaDA 2.0 系列的首个多模态 MoE 模型。核心创新在于采用全离散扩散建模(dLLM),彻底摆脱了对自回归(AR)范式的依赖,实现了文本与图像在底层架构上的原生统一。模型基于 16B 参数的 LLaDA-2.0-mini MoE 骨干网络,通过分块掩码预测范式整合多模态任务,并设计了语义离散视觉表征和高效的 Diffusion Decoder。在性能方面,模型在多模态理解(MMBench-EN 81.5、DocVQA 89.5)、图像生成(GenEval 0.89、DPG-Bench 87.76)和图像编辑(GEdit 中英文均超 6.6)三大领域均达到领先水平。此外,模型还具备思维链生成和交错生成与推理等进阶能力,能够在逻辑推演中自发生成中间图像辅助认知。
💡 主要观点
- LLaDA2.0-Uni 采用全离散扩散架构,彻底打破自回归范式。 通过分块掩码预测进行统一建模,实现了文本与图像在底层架构上的原生统一,并具备并行解码的推理速度优势。
💬 文章金句
- 打破「自回归」范式,LLaDA2.0-Uni 以离散扩散架构,实现多模态理解与生成的原生统一。
- 通过纯粹的掩码预测目标进行全离散扩散建模,彻底打破了传统多模态模型对自回归(AR)范式的依赖。
- 多模态大模型不应只是被动的「画笔」,更应是具备逻辑的「创作者」。
- LLaDA2.0-Uni 在该方向上迈出了重要一步,它可以在逻辑推演的过程中,自发地生成中间态的图像来辅助认知与表达。
📊 文章信息
AI 初评:87
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1995
标签: LLaDA2.0-Uni, 离散扩散模型, 多模态, MoE, 开源模型