LLaDA2.0-Uni 开源: 打破 AR 桎梏，dLLM 定义原生多模态统一新范式

📌 一句话摘要

LLaDA2.0-Uni 通过离散扩散架构打破自回归范式，实现了多模态理解、生成与编辑的原生统一，并开源了 16B MoE 模型。

📝 详细摘要

本文介绍了 inclusionAI 开源的 LLaDA2.0-Uni 模型，这是 LLaDA 2.0 系列的首个多模态 MoE 模型。核心创新在于采用全离散扩散建模（dLLM），彻底摆脱了对自回归（AR）范式的依赖，实现了文本与图像在底层架构上的原生统一。模型基于 16B 参数的 LLaDA-2.0-mini MoE 骨干网络，通过分块掩码预测范式整合多模态任务，并设计了语义离散视觉表征和高效的 Diffusion Decoder。在性能方面，模型在多模态理解（MMBench-EN 81.5、DocVQA 89.5）、图像生成（GenEval 0.89、DPG-Bench 87.76）和图像编辑（GEdit 中英文均超 6.6）三大领域均达到领先水平。此外，模型还具备思维链生成和交错生成与推理等进阶能力，能够在逻辑推演中自发生成中间图像辅助认知。

💡 主要观点

- LLaDA2.0-Uni 采用全离散扩散架构，彻底打破自回归范式。 通过分块掩码预测进行统一建模，实现了文本与图像在底层架构上的原生统一，并具备并行解码的推理速度优势。

模型在理解、生成、编辑三大多模态任务上均达到领先水平。 在 MMBench-EN、DocVQA、GenEval、DPG-Bench、GEdit 等 20 多个权威基准上表现优异，性能可媲美专有视觉语言模型。

模型具备思维链生成和交错推理等进阶能力。 引入思维链生成后，WISE-Bench 得分从 0.68 跃升至 0.78；同时支持在逻辑推演中自发生成中间图像，实现认知深度的图文交错。

💬 文章金句

- 打破「自回归」范式，LLaDA2.0-Uni 以离散扩散架构，实现多模态理解与生成的原生统一。

通过纯粹的掩码预测目标进行全离散扩散建模，彻底打破了传统多模态模型对自回归（AR）范式的依赖。
多模态大模型不应只是被动的「画笔」，更应是具备逻辑的「创作者」。
LLaDA2.0-Uni 在该方向上迈出了重要一步，它可以在逻辑推演的过程中，自发地生成中间态的图像来辅助认知与表达。

📊 文章信息

AI 初评：87

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1995

标签： LLaDA2.0-Uni, 离散扩散模型, 多模态, MoE, 开源模型

阅读完整文章

LLaDA2.0-Uni 开源: 打破 AR 桎梏，dLLM 定义原生多模态统一新范式

🤖 問 AI