百度文心大模型团队开源了基于单流 DiT 架构的 8B 参数文生图模型 ERNIE-Image,其在指令遵循、精准文字渲染及复杂布局生成上表现卓越,并推出支持 8 步快速推理的 Turbo 版本,模型权重与推理代码已全部开源。
📝 详细摘要
文章宣布了百度文心大模型团队开源其 8B 参数文生图模型 ERNIE-Image 及其 Turbo 版本。该模型基于单流 DiT 架构,仅需 24GB 显存即可在消费级显卡上运行,并在 GenEval、OneIG、LongTextBench 等主流评测基准上全面领先开源模型,效果接近顶级商业模型。文章详细介绍了模型在精准文字渲染、复杂指令跟随、结构化生成(如海报、漫画分镜)以及多元风格覆盖方面的核心优势。同时,文章提供了详细的推理部署指南(支持 Diffusers、SGLang、DiffSynth 三种方式)和 LoRA 训练教程,旨在降低研究与生产环境的使用门槛。
💡 主要观点
- ERNIE-Image 以 8B 小参数量实现了媲美顶级商业模型的文生图性能。 该模型在 GenEval、OneIG、LongTextBench 等多个主流评测基准上均取得开源模型第一或前列的成绩,证明了其极高的参数效率,仅需 24GB 显存即可部署。
💬 文章金句
- 百度文心大模型团队开源了基于单流 DiT 架构的 8B 参数文生图模型 ERNIE-Image,仅需 24GB 显存的消费级显卡即可运行,在指令遵循、文字渲染等主流 benchmark 上全面领先开源模型。
- ERNIE-Image 在 GenEval、OneIG、LongTextBench 等主流评测中全面领先开源模型,整体效果接近 NanoBanana、Seedream 4.5 等最先进模型。
- ERNIE-Image 证明了 8B 参数模型可以在文字渲染、复杂指令跟随、结构化生成和多元风格表达上与更大规模模型竞争,同时保持消费级硬件可部署的实用性。
📊 文章信息
AI 初评:88
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2956
标签: 文生图, 扩散模型, DiT, 模型开源, 百度文心