← 回總覽

ERNIE-Image 8B 单流 DiT 架构开源,轻量提示词增强器驱动复杂指令与文本渲染达 SOTA 水平

📅 2026-04-15 18:31 机器之心SOTA模型 人工智能 2 分鐘 1624 字 評分: 79
开源项目 AI 模型 文生图 多模态 音频模型
📌 一句话摘要 本文汇总了 2026 年 4 月 15 日发布的多个开源 AI 项目,包括百度 ERNIE-Image 文生图模型、OpenMOSS 多模态与音频模型、NVIDIA 量子校准模型以及 OmniRoam 全景视频生成框架等,提供了项目简介和收藏链接。 📝 详细摘要 文章是一份 AI 开源项目日报,汇总了 2026 年 4 月 15 日发布的 7 个重要开源项目。核心内容包括:百度开源的 8B 参数文生图模型 ERNIE-Image,采用单流 DiT 架构和轻量提示词增强器,在复杂指令跟随和文本渲染上达到 SOTA;OpenMOSS 生态下的多模态模型 MOSS-VL、音频理解

📌 一句话摘要

本文汇总了 2026 年 4 月 15 日发布的多个开源 AI 项目,包括百度 ERNIE-Image 文生图模型、OpenMOSS 多模态与音频模型、NVIDIA 量子校准模型以及 OmniRoam 全景视频生成框架等,提供了项目简介和收藏链接。

📝 详细摘要

文章是一份 AI 开源项目日报,汇总了 2026 年 4 月 15 日发布的 7 个重要开源项目。核心内容包括:百度开源的 8B 参数文生图模型 ERNIE-Image,采用单流 DiT 架构和轻量提示词增强器,在复杂指令跟随和文本渲染上达到 SOTA;OpenMOSS 生态下的多模态模型 MOSS-VL、音频理解模型 MOSS-Audio 和语音生成模型 MOSS-TTS;NVIDIA 开发的量子校准专用视觉语言模型 NVIDIA-Ising-Calibration-1;被 SIGGRAPH 2026 收录的全景视频生成框架 OmniRoam;以及基于 LLaMA-Factory 的动态训练框架 DataFlex。文章对每个项目进行了简要介绍,并附带了直达 SOTA 模型网站的收藏链接。

💡 主要观点

- 百度 ERNIE-Image 8B 模型在开源文生图领域达到 SOTA 水平。 该模型基于单流 Diffusion Transformer 架构,配合轻量提示词增强器,在复杂指令跟随、文本渲染和结构化生成方面表现优异,适用于商业海报、漫画等多种创作场景。

OpenMOSS 生态发布覆盖视觉、音频、语音的系列多模态模型。 MOSS-VL 主打视频理解,MOSS-Audio 专注于复杂音频的统一建模与推理,MOSS-TTS 则面向高保真语音与声音生成,形成了一个较为完整的开源多模态工具链。
NVIDIA 推出面向量子计算领域的专用视觉语言模型。 NVIDIA-Ising-Calibration-1 基于 Qwen3.5-35B-A3B 构建,专门用于分析量子计算校准实验图并生成结构化技术分析文本,是 AI 在垂直科研领域应用的一个典型案例。
OmniRoam 框架解决了全景视频生成的场景覆盖与一致性问题。 该框架采用预览+精炼的两阶段架构,能够生成长时序、高分辨率且全局一致的全景漫游视频,并配套发布了数据集,效果优于现有方法。

💬 文章金句

- ERNIE-Image 是百度 ERNIE-Image 团队开发的开源文生图模型,基于单流 Diffusion Transformer 架构,搭配轻量提示词增强器,仅 8B DiT 参数就达到开源文生图 SOTA 水平。

  • MOSS-Audio 可对真实场景复杂音频统一建模,支持语音、环境音、音乐理解、音频描述、时序感知问答、复杂推理等能力。
  • OmniRoam 是被 SIGGRAPH 2026 收录的可控全景视频生成框架,针对现有视角视频模型场景覆盖有限、全局一致性差的问题,采用预览+精炼两阶段架构。
  • DataFlex 是基于 LLaMA-Factory 构建的以数据为中心的动态训练框架,可在大模型训练过程中智能调度训练数据。

📊 文章信息

AI 初评:79

来源:机器之心SOTA模型

作者:机器之心SOTA模型

分类:人工智能

语言:中文

阅读时间:6 分钟

字数:1374

标签: 开源项目, AI 模型, 文生图, 多模态, 音频模型

阅读完整文章

查看原文 → 發佈: 2026-04-15 18:31:00 收錄: 2026-04-15 22:00:25

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。