Nucleus-Image 17B 开源：首个 MoE 架构文生图扩散模型，仅激活 2B 参数即超越 Imagen 4

📌 一句话摘要

NucleusAI 开源了首个基于稀疏混合专家（MoE）架构的文生图扩散模型 Nucleus-Image 17B，其通过解耦路由等技术，在多项基准上媲美顶级闭源模型，同时大幅降低了推理成本。

📝 详细摘要

文章介绍了 NucleusAI 开源的 Nucleus-Image 17B，这是首个将稀疏混合专家（Sparse MoE）架构成功应用于扩散模型的文生图模型。该模型拥有 170 亿参数，但每次推理仅激活约 20 亿参数，实现了大模型容量与小模型推理成本的结合。文章详细阐述了其核心技术，包括解耦路由机制（解决专家同质化问题）、文本 KV 缓存加速、渐进稀疏化训练策略以及 Muon + WSM 调度优化。模型在 GenEval、DPG-Bench 和 OneIG-Bench 等基准测试中表现优异，匹配或超越了 GPT Image 1、Imagen 4 等闭源模型，且完全基于预训练，未使用 DPO 或 RLHF。文章提供了模型的开源地址、核心特性、技术细节、性能数据和推理代码示例。

💡 主要观点

- Nucleus-Image 是首个成功应用稀疏 MoE 架构的高质量文生图扩散模型。 它将大语言模型中成熟的 MoE 架构引入扩散模型领域，以 17B 总参数实现仅激活 2B 参数的推理效率，在容量和成本间取得突破性平衡。

解耦路由机制是稳定训练 MoE 扩散模型的关键创新。 通过将路由决策与时间步调制解耦，解决了传统 LLM 式路由在扩散模型中因时间步主导而导致专家同质化、训练不稳定的根本问题。

模型在多项核心基准测试中达到或超越了当前顶级闭源模型的性能。 在 GenEval、DPG-Bench 和 OneIG-Bench 上，其纯预训练版本（无 DPO/RLHF）的成绩与 GPT Image 1、Imagen 4 等相当，尤其在空间布局理解方面表现突出。

完全开源并支持商用，为社区提供了强大的 MoE 扩散模型基座。 采用 Apache 2.0 许可证，提供了完整的模型权重、技术方案和推理代码，降低了研究和应用门槛，有助于推动后续的微调、可控生成等研究。

💬 文章金句

- Nucleus-Image 通过稀疏 MoE 架构在文生图扩散模型中实现了容量与计算的解耦，以 17B 参数的知识容量和约 2B 参数的推理成本，在多项基准上达到或超越当前最强闭源模型。

解耦路由下专家按空间和语义身份清晰特化，耦合路由则训练不稳定且专家同质化。
文本 token 完全不进入 MoE 主干，仅在联合注意力中贡献 KV。路由仅在图像 token 上操作，简化负载均衡；文本 KV 无时间步依赖，计算一次即可跨全部去噪步骤复用。
作为首个完全开源的高质量 MoE 扩散基座模型，Nucleus-Image 为社区的后训练优化、可控生成和更高分辨率扩展提供了坚实的起点。

📊 文章信息

AI 初评：88

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2017

标签：扩散模型, MoE, 文生图, 开源模型, 模型架构

阅读完整文章

Nucleus-Image 17B 开源：首个 MoE 架构文生图扩散模型，仅激活 2B 参数即超越 Imagen 4

🤖 問 AI