去掉 VAE 之后，商汤用 8B 参数重新定义了开源生图的上限

📌 一句话摘要

商汤 SenseNova U1 通过创新的 NEO-unify 架构，彻底摒弃 VAE 和视觉编码器，在 8B 参数规模下实现了多模态理解与生成的原生统一，并以 Apache 2.0 协议开源。

📝 详细摘要

本文详细介绍了商汤最新开源的 SenseNova U1 系列模型。其核心创新在于 NEO-unify 架构，该架构彻底去除了传统扩散模型依赖的变分自编码器（VAE）和视觉编码器（VE），直接在像素层面与文本进行端到端学习，实现了多模态理解与生成的真正原生统一。文章指出，这种架构消除了跨模块传递带来的信息损耗，使得语言和视觉信息在同一个表征空间里共同参与每一层计算。开源的 SenseNova U1 Lite 包含 8B-MoT 和 A3B-MoT 两个版本，在多项基准测试中达到同量级开源模型 SOTA 水平，尤其在 GenEval、MMMU 等指标上表现突出。文章还通过实测案例展示了其在信息图生成、图文交错创作等生产级任务中的强大能力，并提供了 ComfyUI 快速部署方案。文章认为，SenseNova U1 代表了从「模态集成」向「原生统一」的范式跨越，为多模态 AI 的发展开辟了新路径。

💡 主要观点

- NEO-unify 架构彻底去除了 VAE 和视觉编码器，实现像素级端到端建模。 该架构摒弃了传统扩散模型依赖的 VAE 压缩步骤，直接在像素层面与文本进行联合学习，消除了跨模块传递带来的信息损耗，使语言与视觉信息在统一表征空间内共同计算。

SenseNova U1 以 8B 参数规模实现了多模态理解与生成的原生统一。 模型在单一架构内同时具备图像理解、图像生成、编辑、交错生成等能力，并在 GenEval、MMMU 等多项基准测试中达到同量级开源模型 SOTA 水平，部分指标超越大型闭源模型。

统一架构带来了更高的数据效率和更强的落地潜力。 实验表明，NEO-unify 相比类似统一模型在更少训练 token 下取得更好表现，且 8B 的体量使其在消费级 GPU 上部署成为可能，为信息图生成、PPT 制作等生产级任务提供了新选择。

💬 文章金句

- 它做的事情，是把多模态理解和生成这两件事，真正塞进同一个大脑。

传统架构像「说不同语言的人组成的工作组」，而 SenseNova U1 更像「一个从一开始就同时掌握多项技能的人」。
像素与词语的信息从一开始就在同一个表征空间里共同参与每一层计算。
统一架构在表示、训练稳定性和数据效率上确实有收益，而不是一种折中。
手搓信息图乃至 PPT，或许很快就要成为一种正在消失的技能。

📊 文章信息

AI 初评：86

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5495

标签： SenseNova U1, NEO-unify, 多模态, 图像生成, 开源模型

阅读完整文章

去掉 VAE 之后，商汤用 8B 参数重新定义了开源生图的上限

🤖 問 AI