← 回總覽

不卷参数卷架构,这个开源模型把图像理解和生成统一了

📅 2026-04-29 12:27 henry 人工智能 2 分鐘 1461 字 評分: 88
SenseNova-U1 商汤 开源模型 图像生成 多模态
📌 一句话摘要 商汤开源了全新架构 SenseNova-U1 模型,通过统一图像理解与生成的 NEO-unify 架构,实现了连续性图文创作和高密度信息图生成等能力,在多项指标上登顶开源模型榜首。 📝 详细摘要 本文介绍了商汤最新开源的 SenseNova-U1 系列模型,其核心创新在于 NEO-unify 架构,该架构摒弃了传统的视觉编码器(VE)和变分自编码器(VAE),让模型直接处理像素输入和输出,实现了理解与生成在同一个网络中的统一。文章重点展示了 U1 的两大核心能力:连续性图文创作,即模型能像人一样边思考边生成图文交错的内容,并保持主体一致性;以及高密度信息图生成,包括海报、流

📌 一句话摘要

商汤开源了全新架构 SenseNova-U1 模型,通过统一图像理解与生成的 NEO-unify 架构,实现了连续性图文创作和高密度信息图生成等能力,在多项指标上登顶开源模型榜首。

📝 详细摘要

本文介绍了商汤最新开源的 SenseNova-U1 系列模型,其核心创新在于 NEO-unify 架构,该架构摒弃了传统的视觉编码器(VE)和变分自编码器(VAE),让模型直接处理像素输入和输出,实现了理解与生成在同一个网络中的统一。文章重点展示了 U1 的两大核心能力:连续性图文创作,即模型能像人一样边思考边生成图文交错的内容,并保持主体一致性;以及高密度信息图生成,包括海报、流程图、连环画等复杂排版任务。此外,U1 Lite 版本还首创了图文交错的思维链,能在图像编辑前进行物理常识推理。模型提供 8B 和 38B(MoE)两个规格,并配套开源了 SenseNova-Skills 技能包,方便集成到 Agent 应用中。文章也坦诚指出了模型当前在上下文长度、人物细节和长文字渲染等方面的局限。

💡 主要观点

- SenseNova-U1 采用 NEO-unify 架构,统一了图像理解与生成。 该架构去除了传统的视觉编码器和变分自编码器,让模型直接处理像素,实现了理解和生成在同一个网络中的原生统一,避免了传统多模型拼接带来的信息损失。

模型具备连续性图文创作能力,能保持主体一致性。 U1 可以在单次调用中生成图文交错的内容,如操作教程或漫画分镜,且能保证同一主体(如牛排、角色)在不同步骤中的形象高度一致,这是传统多模型调用方案难以实现的。
在高密度信息图生成上表现突出,可媲美 GPT-Image-2。 模型能够生成包含复杂排版、文字和多种元素的图像,如招聘海报、信息图、连环画等,解决了 AI 生图在文字密集和图文交错场景下的传统难题。
U1 Lite 版本首创图文交错的思维链,具备物理常识推理能力。 在进行图像编辑时,模型会先进行逻辑推理,例如预测一杯热茶在一小时后的变化,并基于物理常识(如茶汤氧化、蒸汽冷凝)生成符合预期的结果,而非简单地进行像素变换。

💬 文章金句

- U1 的做法是让两者在同一个表征空间里共享上下文,语义丰富性和像素级视觉保真度第一次同时拿住。

  • 传统范式得在多个模型之间来回调用,各画各的,角色形象很容易在第三步就走样。U1 是单次单模型调用直接出全套。
  • 这种会推理的能力放到图像编辑上会更有趣。
  • U1 这次开的不是终点,是个起点。

📊 文章信息

AI 初评:88

来源:量子位

作者:henry

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2964

标签: SenseNova-U1, 商汤, 开源模型, 图像生成, 多模态

阅读完整文章

查看原文 → 發佈: 2026-04-29 12:27:03 收錄: 2026-04-29 14:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。