ERNIE-Image 8B 单流 DiT 架构开源，轻量提示词增强器驱动复杂指令与文本渲染达 SOTA 水平

📌 一句话摘要

本文汇总了 2026 年 4 月 15 日发布的多个开源 AI 项目，包括百度 ERNIE-Image 文生图模型、OpenMOSS 多模态与音频模型、NVIDIA 量子校准模型以及 OmniRoam 全景视频生成框架等，提供了项目简介和收藏链接。

📝 详细摘要

文章是一份 AI 开源项目日报，汇总了 2026 年 4 月 15 日发布的 7 个重要开源项目。核心内容包括：百度开源的 8B 参数文生图模型 ERNIE-Image，采用单流 DiT 架构和轻量提示词增强器，在复杂指令跟随和文本渲染上达到 SOTA；OpenMOSS 生态下的多模态模型 MOSS-VL、音频理解模型 MOSS-Audio 和语音生成模型 MOSS-TTS；NVIDIA 开发的量子校准专用视觉语言模型 NVIDIA-Ising-Calibration-1；被 SIGGRAPH 2026 收录的全景视频生成框架 OmniRoam；以及基于 LLaMA-Factory 的动态训练框架 DataFlex。文章对每个项目进行了简要介绍，并附带了直达 SOTA 模型网站的收藏链接。

💡 主要观点

- 百度 ERNIE-Image 8B 模型在开源文生图领域达到 SOTA 水平。 该模型基于单流 Diffusion Transformer 架构，配合轻量提示词增强器，在复杂指令跟随、文本渲染和结构化生成方面表现优异，适用于商业海报、漫画等多种创作场景。

OpenMOSS 生态发布覆盖视觉、音频、语音的系列多模态模型。 MOSS-VL 主打视频理解，MOSS-Audio 专注于复杂音频的统一建模与推理，MOSS-TTS 则面向高保真语音与声音生成，形成了一个较为完整的开源多模态工具链。

NVIDIA 推出面向量子计算领域的专用视觉语言模型。 NVIDIA-Ising-Calibration-1 基于 Qwen3.5-35B-A3B 构建，专门用于分析量子计算校准实验图并生成结构化技术分析文本，是 AI 在垂直科研领域应用的一个典型案例。

OmniRoam 框架解决了全景视频生成的场景覆盖与一致性问题。 该框架采用预览+精炼的两阶段架构，能够生成长时序、高分辨率且全局一致的全景漫游视频，并配套发布了数据集，效果优于现有方法。

💬 文章金句

- ERNIE-Image 是百度 ERNIE-Image 团队开发的开源文生图模型，基于单流 Diffusion Transformer 架构，搭配轻量提示词增强器，仅 8B DiT 参数就达到开源文生图 SOTA 水平。

MOSS-Audio 可对真实场景复杂音频统一建模，支持语音、环境音、音乐理解、音频描述、时序感知问答、复杂推理等能力。
OmniRoam 是被 SIGGRAPH 2026 收录的可控全景视频生成框架，针对现有视角视频模型场景覆盖有限、全局一致性差的问题，采用预览+精炼两阶段架构。
DataFlex 是基于 LLaMA-Factory 构建的以数据为中心的动态训练框架，可在大模型训练过程中智能调度训练数据。

📊 文章信息

AI 初评：79

来源：机器之心SOTA模型

作者：机器之心SOTA模型

分类：人工智能

语言：中文

阅读时间：6 分钟

字数：1374

标签：开源项目, AI 模型, 文生图, 多模态, 音频模型

阅读完整文章

ERNIE-Image 8B 单流 DiT 架构开源，轻量提示词增强器驱动复杂指令与文本渲染达 SOTA 水平

🤖 問 AI