商汤开源了全新架构 SenseNova-U1 模型,通过统一图像理解与生成的 NEO-unify 架构,实现了连续性图文创作和高密度信息图生成等能力,在多项指标上登顶开源模型榜首。
📝 详细摘要
本文介绍了商汤最新开源的 SenseNova-U1 系列模型,其核心创新在于 NEO-unify 架构,该架构摒弃了传统的视觉编码器(VE)和变分自编码器(VAE),让模型直接处理像素输入和输出,实现了理解与生成在同一个网络中的统一。文章重点展示了 U1 的两大核心能力:连续性图文创作,即模型能像人一样边思考边生成图文交错的内容,并保持主体一致性;以及高密度信息图生成,包括海报、流程图、连环画等复杂排版任务。此外,U1 Lite 版本还首创了图文交错的思维链,能在图像编辑前进行物理常识推理。模型提供 8B 和 38B(MoE)两个规格,并配套开源了 SenseNova-Skills 技能包,方便集成到 Agent 应用中。文章也坦诚指出了模型当前在上下文长度、人物细节和长文字渲染等方面的局限。
💡 主要观点
- SenseNova-U1 采用 NEO-unify 架构,统一了图像理解与生成。 该架构去除了传统的视觉编码器和变分自编码器,让模型直接处理像素,实现了理解和生成在同一个网络中的原生统一,避免了传统多模型拼接带来的信息损失。
💬 文章金句
- U1 的做法是让两者在同一个表征空间里共享上下文,语义丰富性和像素级视觉保真度第一次同时拿住。
- 传统范式得在多个模型之间来回调用,各画各的,角色形象很容易在第三步就走样。U1 是单次单模型调用直接出全套。
- 这种会推理的能力放到图像编辑上会更有趣。
- U1 这次开的不是终点,是个起点。
📊 文章信息
AI 初评:88
来源:量子位
作者:henry
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2964
标签: SenseNova-U1, 商汤, 开源模型, 图像生成, 多模态