← 回總覽

LLaDA2.0-Uni 开源: 打破 AR 桎梏,dLLM 定义原生多模态统一新范式

📅 2026-04-27 19:06 魔搭ModelScope社区 人工智能 2 分鐘 1283 字 評分: 87
LLaDA2.0-Uni 离散扩散模型 多模态 MoE 开源模型
📌 一句话摘要 LLaDA2.0-Uni 通过离散扩散架构打破自回归范式,实现了多模态理解、生成与编辑的原生统一,并开源了 16B MoE 模型。 📝 详细摘要 本文介绍了 inclusionAI 开源的 LLaDA2.0-Uni 模型,这是 LLaDA 2.0 系列的首个多模态 MoE 模型。核心创新在于采用全离散扩散建模(dLLM),彻底摆脱了对自回归(AR)范式的依赖,实现了文本与图像在底层架构上的原生统一。模型基于 16B 参数的 LLaDA-2.0-mini MoE 骨干网络,通过分块掩码预测范式整合多模态任务,并设计了语义离散视觉表征和高效的 Diffusion Decoder

📌 一句话摘要

LLaDA2.0-Uni 通过离散扩散架构打破自回归范式,实现了多模态理解、生成与编辑的原生统一,并开源了 16B MoE 模型。

📝 详细摘要

本文介绍了 inclusionAI 开源的 LLaDA2.0-Uni 模型,这是 LLaDA 2.0 系列的首个多模态 MoE 模型。核心创新在于采用全离散扩散建模(dLLM),彻底摆脱了对自回归(AR)范式的依赖,实现了文本与图像在底层架构上的原生统一。模型基于 16B 参数的 LLaDA-2.0-mini MoE 骨干网络,通过分块掩码预测范式整合多模态任务,并设计了语义离散视觉表征和高效的 Diffusion Decoder。在性能方面,模型在多模态理解(MMBench-EN 81.5、DocVQA 89.5)、图像生成(GenEval 0.89、DPG-Bench 87.76)和图像编辑(GEdit 中英文均超 6.6)三大领域均达到领先水平。此外,模型还具备思维链生成和交错生成与推理等进阶能力,能够在逻辑推演中自发生成中间图像辅助认知。

💡 主要观点

- LLaDA2.0-Uni 采用全离散扩散架构,彻底打破自回归范式。 通过分块掩码预测进行统一建模,实现了文本与图像在底层架构上的原生统一,并具备并行解码的推理速度优势。

模型在理解、生成、编辑三大多模态任务上均达到领先水平。 在 MMBench-EN、DocVQA、GenEval、DPG-Bench、GEdit 等 20 多个权威基准上表现优异,性能可媲美专有视觉语言模型。
模型具备思维链生成和交错推理等进阶能力。 引入思维链生成后,WISE-Bench 得分从 0.68 跃升至 0.78;同时支持在逻辑推演中自发生成中间图像,实现认知深度的图文交错。

💬 文章金句

- 打破「自回归」范式,LLaDA2.0-Uni 以离散扩散架构,实现多模态理解与生成的原生统一。

  • 通过纯粹的掩码预测目标进行全离散扩散建模,彻底打破了传统多模态模型对自回归(AR)范式的依赖。
  • 多模态大模型不应只是被动的「画笔」,更应是具备逻辑的「创作者」。
  • LLaDA2.0-Uni 在该方向上迈出了重要一步,它可以在逻辑推演的过程中,自发地生成中间态的图像来辅助认知与表达。

📊 文章信息

AI 初评:87

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1995

标签: LLaDA2.0-Uni, 离散扩散模型, 多模态, MoE, 开源模型

阅读完整文章

查看原文 → 發佈: 2026-04-27 19:06:00 收錄: 2026-04-28 00:00:39

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。