本文汇总了 2026 年 4 月 15 日发布的多个开源 AI 项目,包括百度 ERNIE-Image 文生图模型、OpenMOSS 多模态与音频模型、NVIDIA 量子校准模型以及 OmniRoam 全景视频生成框架等,提供了项目简介和收藏链接。
📝 详细摘要
文章是一份 AI 开源项目日报,汇总了 2026 年 4 月 15 日发布的 7 个重要开源项目。核心内容包括:百度开源的 8B 参数文生图模型 ERNIE-Image,采用单流 DiT 架构和轻量提示词增强器,在复杂指令跟随和文本渲染上达到 SOTA;OpenMOSS 生态下的多模态模型 MOSS-VL、音频理解模型 MOSS-Audio 和语音生成模型 MOSS-TTS;NVIDIA 开发的量子校准专用视觉语言模型 NVIDIA-Ising-Calibration-1;被 SIGGRAPH 2026 收录的全景视频生成框架 OmniRoam;以及基于 LLaMA-Factory 的动态训练框架 DataFlex。文章对每个项目进行了简要介绍,并附带了直达 SOTA 模型网站的收藏链接。
💡 主要观点
- 百度 ERNIE-Image 8B 模型在开源文生图领域达到 SOTA 水平。 该模型基于单流 Diffusion Transformer 架构,配合轻量提示词增强器,在复杂指令跟随、文本渲染和结构化生成方面表现优异,适用于商业海报、漫画等多种创作场景。
💬 文章金句
- ERNIE-Image 是百度 ERNIE-Image 团队开发的开源文生图模型,基于单流 Diffusion Transformer 架构,搭配轻量提示词增强器,仅 8B DiT 参数就达到开源文生图 SOTA 水平。
- MOSS-Audio 可对真实场景复杂音频统一建模,支持语音、环境音、音乐理解、音频描述、时序感知问答、复杂推理等能力。
- OmniRoam 是被 SIGGRAPH 2026 收录的可控全景视频生成框架,针对现有视角视频模型场景覆盖有限、全局一致性差的问题,采用预览+精炼两阶段架构。
- DataFlex 是基于 LLaMA-Factory 构建的以数据为中心的动态训练框架,可在大模型训练过程中智能调度训练数据。
📊 文章信息
AI 初评:79
来源:机器之心SOTA模型
作者:机器之心SOTA模型
分类:人工智能
语言:中文
阅读时间:6 分钟
字数:1374
标签: 开源项目, AI 模型, 文生图, 多模态, 音频模型