SenseNova U1 开源：原生统一多模态理解与生成，8B 参数达到同量级 SOTA

📌 一句话摘要

商汤开源 SenseNova U1 Lite 系列，基于自研 NEO-unify 架构，在单一模型中原生统一多模态理解与生成，8B 参数即达同量级开源 SOTA，并实现业内首创的连续性图文创作。

📝 详细摘要

商汤科技开源了日日新 SenseNova U1 Lite 系列模型，其核心创新在于自研的 NEO-unify 架构。该架构彻底摒弃了传统的视觉编码器和变分自编码器，将语言与视觉信息在统一的表征空间中直接建模，实现了多模态理解、推理与生成的原生统一。文章展示了该模型在多个方面的突破性能力：仅 8B 参数即在多项基准测试中达到同量级开源 SOTA，部分指标比肩大型商业闭源模型；实现了业内首创的连续性图文交错输出，图像间风格高度一致；在复杂信息图生成任务中达到商业级水准。此外，文章还提供了详细的模型推理代码示例，并介绍了 8 步 LoRA 加速版本，可大幅提升推理速度。

💡 主要观点

- SenseNova U1 基于 NEO-unify 架构，实现了多模态理解与生成的原生统一。 该架构摒弃了传统的视觉编码器和 VAE，将文本与视觉信息在统一表征空间中建模，避免了传统拼接式架构的信息损耗，提升了效率和性能。

8B 参数模型在多项基准上达到同量级开源 SOTA，部分指标比肩大型商业闭源模型。 在图像理解、生成、编辑、空间智能和视觉推理等任务中，SenseNova U1 Lite 以较小的参数量展现了强大的性能，证明了其架构的高效性。

实现业内首创的连续性图文创作能力，单次模型调用即可完成分步图文输出。 凭借统一表征空间，模型能保持图像间风格高度一致，实现连贯的图文交错输出，例如分步展示烹饪过程或从草稿逐步完成复杂图案。

💬 文章金句

- 商汤开源日日新 SenseNova U1，基于 NEO-unify 架构实现多模态原生统一，业内首创连续图文创作，轻量版性能 SOTA。

彻底摒弃视觉编码器（VE）和变分自编码器（VAE），重构统一表征空间。
8B 参数即达到同量级开源 SOTA，部分指标比肩大型商业闭源模型。

📊 文章信息

AI 初评：86

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3005

标签： SenseNova U1, 多模态模型, 开源, NEO-unify, 图文创作

阅读完整文章

SenseNova U1 开源：原生统一多模态理解与生成，8B 参数达到同量级 SOTA

🤖 問 AI