一个小众模型突然火了，可能代表新的范式。

📌 一句话摘要

本文分析了商汤 SenseNova U1 模型作为原生多模态理解生成统一模型的技术范式意义，认为其统一表征空间、去除视觉编码器的架构可能成为下一代多模态模型的新方向。

📝 详细摘要

文章首先回顾了大模型发展的几个关键节点：推理范式（OpenAI o1）、原生多模态（Google Gemini）和原生 Agent（Anthropic Claude）。在此基础上，重点介绍了商汤最新发布的 SenseNova U1 模型。该模型采用 NEO-unify 架构，去掉了传统的视觉编码器（VE）和变分自编码器（VAE），直接在模型内部构建统一的像素与语义表征空间。这与当前主流原生多模态模型（如 Gemini）将图像切块编码后以 Token 形式进入语言模型的方式有本质区别，减少了信息损耗，并实现了理解与生成的统一——一个模型既能看懂图也能直接画图。作者通过多个实测案例（如作文配图、信息图表生成）展示了 U1 的能力，同时坦诚指出其目前稳定性和生成质量尚不及成熟产品。文章最后以 PPT 制作场景为例，阐述了统一模型在上下文连贯性上的优势，并预测该范式可能在一年内成为行业共识。

💡 主要观点

- 商汤 SenseNova U1 采用 NEO-unify 架构，去除了视觉编码器，构建了统一的像素与语义表征空间。 与当前主流原生多模态模型将图像切块编码后以 Token 形式进入语言模型不同，U1 在模型内部直接统一了视觉和语言表示，减少了信息转换过程中的损耗。

U1 实现了多模态理解与生成的统一，一个模型即可同时完成看图、推理和画图。 当前行业主流做法（如 GPT-5.5 + GPT Image 2、Gemini + Nano Banana）将理解和生成分离为不同模型，U1 通过统一表征打破了这一割裂。

统一模型在需要上下文连贯性的场景（如 PPT 制作）中具有显著优势。 单一模型能通盘理解全文语境，自动判断何时配图、配什么图，生成的图片与前后内容风格一致，避免了多模型拼接时的信息断层。

💬 文章金句

- U1 是让模型内部同时具备对像素和语义的统一表示能力，减少中间的转换过程，而不是先翻译成另一种形式再参与推理。这是本质的差别。

如果模型能原生理解图片，不需要这道翻译，那就更接近人脑了。视觉信息可以直接和文本信息混在一起参与推理。
现在原生多模态模型也已经是共识了。未来一年内，也许原生多模态理解和生成又会成为新的共识。

📊 文章信息

AI 初评：83

来源：AI产品阿颖

作者：阿颖

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2822

标签： SenseNova U1, 商汤, 原生多模态, 统一模型, NEO-unify

阅读完整文章

一个小众模型突然火了，可能代表新的范式。

🤖 問 AI