开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤 SenseNova U1 实测

📌 一句话摘要

商汤开源模型 SenseNova U1 通过 NEO-unify 原生架构实现理解与生成统一，在连续图文创作和信息图生成上达到开源 SOTA 水平，为本地部署提供了 GPT Image 2 之外的高性价比选择。

📝 详细摘要

本文对商汤最新开源的 SenseNova U1 多模态模型进行了全面实测。该模型采用行业首创的 NEO-unify 原生架构，将文本理解与图像生成统一在同一个表征空间中，无需外部工具即可在单一模型中实现连续图文输出。实测覆盖了绘本故事创作、发型设计、游戏角色迭代、牛油果生长过程等连续图文场景，以及 DeepSeek V4 科普、电子烟拆解、武汉三鲜豆皮制作流程、防晒霜选购指南等信息图生成任务。文章指出，SenseNova U1 在信息提炼和逻辑一致性上表现优异，文字渲染偶有错误但整体可用。开源版本包括 8B 参数的 SenseNova-U1-8B-MoT 和 38B 总参数但仅激活 3B 的 SenseNova-U1-A3B-MoT，均可本地部署和微调。商汤还同步开源了面向 Agent 的 AIGC 技能库 SenseNova-Skills，方便开发者将模型能力接入智能体工作流。

💡 主要观点

- SenseNova U1 采用 NEO-unify 原生架构，实现理解与生成的统一。 该架构抛弃传统视觉编码器，直接将图像分块输入主干网络，让文本和视觉训练端到端统一，减少了信息传递损耗，提升了生成效率。

行业首创连续图文生成输出，单一模型即可连贯输出图片和文字。 不同于需要外部工具或代码生成的方案，SenseNova U1 在模型内部实现图文逻辑对齐，适用于绘本故事、流程演示等时序性内容创作。

信息图生成能力达到开源 SOTA 水平，可处理复杂知识科普和数据分析。 实测中模型能理解网页链接内容，将会议纪要、品牌调性描述等复杂信息压缩为可视化信息图，文字渲染基本准确。

开源版本支持本地部署和微调，提供高性价比的 AI 图像生成方案。 8B 参数版本可在边缘设备运行，A3B 版本以极低推理成本提供更强能力，开发者可完全控制模型行为和数据。

💬 文章金句

- SenseNova U1 则是从底层把这两件事，合进了同一个表征空间。

它回归了多模态的第一性原理，从底层的像素和文字开始，自己构建内部的认知。
对创作者来说，它行业首创的连续图文创作输出能力，打破了过去文字与配图割裂的窘境。
SenseNova U1 提供了一个不同的技术路径，对于整个开源社区的方向都有着重要意义。

📊 文章信息

AI 初评：86

来源：爱范儿

作者：张子豪

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3866

标签： SenseNova U1, 商汤, 多模态模型, 开源模型, 图像生成

阅读完整文章

开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤 SenseNova U1 实测

🤖 問 AI