NucleusAI 开源了首个基于稀疏混合专家(MoE)架构的文生图扩散模型 Nucleus-Image 17B,其通过解耦路由等技术,在多项基准上媲美顶级闭源模型,同时大幅降低了推理成本。
📝 详细摘要
文章介绍了 NucleusAI 开源的 Nucleus-Image 17B,这是首个将稀疏混合专家(Sparse MoE)架构成功应用于扩散模型的文生图模型。该模型拥有 170 亿参数,但每次推理仅激活约 20 亿参数,实现了大模型容量与小模型推理成本的结合。文章详细阐述了其核心技术,包括解耦路由机制(解决专家同质化问题)、文本 KV 缓存加速、渐进稀疏化训练策略以及 Muon + WSM 调度优化。模型在 GenEval、DPG-Bench 和 OneIG-Bench 等基准测试中表现优异,匹配或超越了 GPT Image 1、Imagen 4 等闭源模型,且完全基于预训练,未使用 DPO 或 RLHF。文章提供了模型的开源地址、核心特性、技术细节、性能数据和推理代码示例。
💡 主要观点
- Nucleus-Image 是首个成功应用稀疏 MoE 架构的高质量文生图扩散模型。 它将大语言模型中成熟的 MoE 架构引入扩散模型领域,以 17B 总参数实现仅激活 2B 参数的推理效率,在容量和成本间取得突破性平衡。
💬 文章金句
- Nucleus-Image 通过稀疏 MoE 架构在文生图扩散模型中实现了容量与计算的解耦,以 17B 参数的知识容量和约 2B 参数的推理成本,在多项基准上达到或超越当前最强闭源模型。
- 解耦路由下专家按空间和语义身份清晰特化,耦合路由则训练不稳定且专家同质化。
- 文本 token 完全不进入 MoE 主干,仅在联合注意力中贡献 KV。路由仅在图像 token 上操作,简化负载均衡;文本 KV 无时间步依赖,计算一次即可跨全部去噪步骤复用。
- 作为首个完全开源的高质量 MoE 扩散基座模型,Nucleus-Image 为社区的后训练优化、可控生成和更高分辨率扩展提供了坚实的起点。
📊 文章信息
AI 初评:88
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2017
标签: 扩散模型, MoE, 文生图, 开源模型, 模型架构