不卷参数卷架构，这个开源模型把图像理解和生成统一了

📌 一句话摘要

商汤开源了全新架构 SenseNova-U1 模型，通过统一图像理解与生成的 NEO-unify 架构，实现了连续性图文创作和高密度信息图生成等能力，在多项指标上登顶开源模型榜首。

📝 详细摘要

本文介绍了商汤最新开源的 SenseNova-U1 系列模型，其核心创新在于 NEO-unify 架构，该架构摒弃了传统的视觉编码器（VE）和变分自编码器（VAE），让模型直接处理像素输入和输出，实现了理解与生成在同一个网络中的统一。文章重点展示了 U1 的两大核心能力：连续性图文创作，即模型能像人一样边思考边生成图文交错的内容，并保持主体一致性；以及高密度信息图生成，包括海报、流程图、连环画等复杂排版任务。此外，U1 Lite 版本还首创了图文交错的思维链，能在图像编辑前进行物理常识推理。模型提供 8B 和 38B（MoE）两个规格，并配套开源了 SenseNova-Skills 技能包，方便集成到 Agent 应用中。文章也坦诚指出了模型当前在上下文长度、人物细节和长文字渲染等方面的局限。

💡 主要观点

- SenseNova-U1 采用 NEO-unify 架构，统一了图像理解与生成。 该架构去除了传统的视觉编码器和变分自编码器，让模型直接处理像素，实现了理解和生成在同一个网络中的原生统一，避免了传统多模型拼接带来的信息损失。

模型具备连续性图文创作能力，能保持主体一致性。 U1 可以在单次调用中生成图文交错的内容，如操作教程或漫画分镜，且能保证同一主体（如牛排、角色）在不同步骤中的形象高度一致，这是传统多模型调用方案难以实现的。

在高密度信息图生成上表现突出，可媲美 GPT-Image-2。 模型能够生成包含复杂排版、文字和多种元素的图像，如招聘海报、信息图、连环画等，解决了 AI 生图在文字密集和图文交错场景下的传统难题。

U1 Lite 版本首创图文交错的思维链，具备物理常识推理能力。 在进行图像编辑时，模型会先进行逻辑推理，例如预测一杯热茶在一小时后的变化，并基于物理常识（如茶汤氧化、蒸汽冷凝）生成符合预期的结果，而非简单地进行像素变换。

💬 文章金句

- U1 的做法是让两者在同一个表征空间里共享上下文，语义丰富性和像素级视觉保真度第一次同时拿住。

传统范式得在多个模型之间来回调用，各画各的，角色形象很容易在第三步就走样。U1 是单次单模型调用直接出全套。
这种会推理的能力放到图像编辑上会更有趣。
U1 这次开的不是终点，是个起点。

📊 文章信息

AI 初评：88

来源：量子位

作者：henry

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2964

标签： SenseNova-U1, 商汤, 开源模型, 图像生成, 多模态

阅读完整文章

不卷参数卷架构，这个开源模型把图像理解和生成统一了

🤖 問 AI