← 回總覽

Nucleus-Image 17B 开源:首个 MoE 架构文生图扩散模型,仅激活 2B 参数即超越 Imagen 4

📅 2026-04-20 21:11 魔搭ModelScope社区 人工智能 2 分鐘 1537 字 評分: 88
扩散模型 MoE 文生图 开源模型 模型架构
📌 一句话摘要 NucleusAI 开源了首个基于稀疏混合专家(MoE)架构的文生图扩散模型 Nucleus-Image 17B,其通过解耦路由等技术,在多项基准上媲美顶级闭源模型,同时大幅降低了推理成本。 📝 详细摘要 文章介绍了 NucleusAI 开源的 Nucleus-Image 17B,这是首个将稀疏混合专家(Sparse MoE)架构成功应用于扩散模型的文生图模型。该模型拥有 170 亿参数,但每次推理仅激活约 20 亿参数,实现了大模型容量与小模型推理成本的结合。文章详细阐述了其核心技术,包括解耦路由机制(解决专家同质化问题)、文本 KV 缓存加速、渐进稀疏化训练策略以及 M

📌 一句话摘要

NucleusAI 开源了首个基于稀疏混合专家(MoE)架构的文生图扩散模型 Nucleus-Image 17B,其通过解耦路由等技术,在多项基准上媲美顶级闭源模型,同时大幅降低了推理成本。

📝 详细摘要

文章介绍了 NucleusAI 开源的 Nucleus-Image 17B,这是首个将稀疏混合专家(Sparse MoE)架构成功应用于扩散模型的文生图模型。该模型拥有 170 亿参数,但每次推理仅激活约 20 亿参数,实现了大模型容量与小模型推理成本的结合。文章详细阐述了其核心技术,包括解耦路由机制(解决专家同质化问题)、文本 KV 缓存加速、渐进稀疏化训练策略以及 Muon + WSM 调度优化。模型在 GenEval、DPG-Bench 和 OneIG-Bench 等基准测试中表现优异,匹配或超越了 GPT Image 1、Imagen 4 等闭源模型,且完全基于预训练,未使用 DPO 或 RLHF。文章提供了模型的开源地址、核心特性、技术细节、性能数据和推理代码示例。

💡 主要观点

- Nucleus-Image 是首个成功应用稀疏 MoE 架构的高质量文生图扩散模型。 它将大语言模型中成熟的 MoE 架构引入扩散模型领域,以 17B 总参数实现仅激活 2B 参数的推理效率,在容量和成本间取得突破性平衡。

解耦路由机制是稳定训练 MoE 扩散模型的关键创新。 通过将路由决策与时间步调制解耦,解决了传统 LLM 式路由在扩散模型中因时间步主导而导致专家同质化、训练不稳定的根本问题。
模型在多项核心基准测试中达到或超越了当前顶级闭源模型的性能。 在 GenEval、DPG-Bench 和 OneIG-Bench 上,其纯预训练版本(无 DPO/RLHF)的成绩与 GPT Image 1、Imagen 4 等相当,尤其在空间布局理解方面表现突出。
完全开源并支持商用,为社区提供了强大的 MoE 扩散模型基座。 采用 Apache 2.0 许可证,提供了完整的模型权重、技术方案和推理代码,降低了研究和应用门槛,有助于推动后续的微调、可控生成等研究。

💬 文章金句

- Nucleus-Image 通过稀疏 MoE 架构在文生图扩散模型中实现了容量与计算的解耦,以 17B 参数的知识容量和约 2B 参数的推理成本,在多项基准上达到或超越当前最强闭源模型。

  • 解耦路由下专家按空间和语义身份清晰特化,耦合路由则训练不稳定且专家同质化。
  • 文本 token 完全不进入 MoE 主干,仅在联合注意力中贡献 KV。路由仅在图像 token 上操作,简化负载均衡;文本 KV 无时间步依赖,计算一次即可跨全部去噪步骤复用。
  • 作为首个完全开源的高质量 MoE 扩散基座模型,Nucleus-Image 为社区的后训练优化、可控生成和更高分辨率扩展提供了坚实的起点。

📊 文章信息

AI 初评:88

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2017

标签: 扩散模型, MoE, 文生图, 开源模型, 模型架构

阅读完整文章

查看原文 → 發佈: 2026-04-20 21:11:00 收錄: 2026-04-21 00:01:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。