商汤开源模型 SenseNova U1 通过 NEO-unify 原生架构实现理解与生成统一,在连续图文创作和信息图生成上达到开源 SOTA 水平,为本地部署提供了 GPT Image 2 之外的高性价比选择。
📝 详细摘要
本文对商汤最新开源的 SenseNova U1 多模态模型进行了全面实测。该模型采用行业首创的 NEO-unify 原生架构,将文本理解与图像生成统一在同一个表征空间中,无需外部工具即可在单一模型中实现连续图文输出。实测覆盖了绘本故事创作、发型设计、游戏角色迭代、牛油果生长过程等连续图文场景,以及 DeepSeek V4 科普、电子烟拆解、武汉三鲜豆皮制作流程、防晒霜选购指南等信息图生成任务。文章指出,SenseNova U1 在信息提炼和逻辑一致性上表现优异,文字渲染偶有错误但整体可用。开源版本包括 8B 参数的 SenseNova-U1-8B-MoT 和 38B 总参数但仅激活 3B 的 SenseNova-U1-A3B-MoT,均可本地部署和微调。商汤还同步开源了面向 Agent 的 AIGC 技能库 SenseNova-Skills,方便开发者将模型能力接入智能体工作流。
💡 主要观点
- SenseNova U1 采用 NEO-unify 原生架构,实现理解与生成的统一。 该架构抛弃传统视觉编码器,直接将图像分块输入主干网络,让文本和视觉训练端到端统一,减少了信息传递损耗,提升了生成效率。
💬 文章金句
- SenseNova U1 则是从底层把这两件事,合进了同一个表征空间。
- 它回归了多模态的第一性原理,从底层的像素和文字开始,自己构建内部的认知。
- 对创作者来说,它行业首创的连续图文创作输出能力,打破了过去文字与配图割裂的窘境。
- SenseNova U1 提供了一个不同的技术路径,对于整个开源社区的方向都有着重要意义。
📊 文章信息
AI 初评:86
来源:爱范儿
作者:张子豪
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3866
标签: SenseNova U1, 商汤, 多模态模型, 开源模型, 图像生成