← 回總覽

一个小众模型突然火了,可能代表新的范式。

📅 2026-04-30 10:33 阿颖 人工智能 2 分鐘 1435 字 評分: 83
SenseNova U1 商汤 原生多模态 统一模型 NEO-unify
📌 一句话摘要 本文分析了商汤 SenseNova U1 模型作为原生多模态理解生成统一模型的技术范式意义,认为其统一表征空间、去除视觉编码器的架构可能成为下一代多模态模型的新方向。 📝 详细摘要 文章首先回顾了大模型发展的几个关键节点:推理范式(OpenAI o1)、原生多模态(Google Gemini)和原生 Agent(Anthropic Claude)。在此基础上,重点介绍了商汤最新发布的 SenseNova U1 模型。该模型采用 NEO-unify 架构,去掉了传统的视觉编码器(VE)和变分自编码器(VAE),直接在模型内部构建统一的像素与语义表征空间。这与当前主流原生多模态

📌 一句话摘要

本文分析了商汤 SenseNova U1 模型作为原生多模态理解生成统一模型的技术范式意义,认为其统一表征空间、去除视觉编码器的架构可能成为下一代多模态模型的新方向。

📝 详细摘要

文章首先回顾了大模型发展的几个关键节点:推理范式(OpenAI o1)、原生多模态(Google Gemini)和原生 Agent(Anthropic Claude)。在此基础上,重点介绍了商汤最新发布的 SenseNova U1 模型。该模型采用 NEO-unify 架构,去掉了传统的视觉编码器(VE)和变分自编码器(VAE),直接在模型内部构建统一的像素与语义表征空间。这与当前主流原生多模态模型(如 Gemini)将图像切块编码后以 Token 形式进入语言模型的方式有本质区别,减少了信息损耗,并实现了理解与生成的统一——一个模型既能看懂图也能直接画图。作者通过多个实测案例(如作文配图、信息图表生成)展示了 U1 的能力,同时坦诚指出其目前稳定性和生成质量尚不及成熟产品。文章最后以 PPT 制作场景为例,阐述了统一模型在上下文连贯性上的优势,并预测该范式可能在一年内成为行业共识。

💡 主要观点

- 商汤 SenseNova U1 采用 NEO-unify 架构,去除了视觉编码器,构建了统一的像素与语义表征空间。 与当前主流原生多模态模型将图像切块编码后以 Token 形式进入语言模型不同,U1 在模型内部直接统一了视觉和语言表示,减少了信息转换过程中的损耗。

U1 实现了多模态理解与生成的统一,一个模型即可同时完成看图、推理和画图。 当前行业主流做法(如 GPT-5.5 + GPT Image 2、Gemini + Nano Banana)将理解和生成分离为不同模型,U1 通过统一表征打破了这一割裂。
统一模型在需要上下文连贯性的场景(如 PPT 制作)中具有显著优势。 单一模型能通盘理解全文语境,自动判断何时配图、配什么图,生成的图片与前后内容风格一致,避免了多模型拼接时的信息断层。

💬 文章金句

- U1 是让模型内部同时具备对像素和语义的统一表示能力,减少中间的转换过程,而不是先翻译成另一种形式再参与推理。这是本质的差别。

  • 如果模型能原生理解图片,不需要这道翻译,那就更接近人脑了。视觉信息可以直接和文本信息混在一起参与推理。
  • 现在原生多模态模型也已经是共识了。未来一年内,也许原生多模态理解和生成又会成为新的共识。

📊 文章信息

AI 初评:83

来源:AI产品阿颖

作者:阿颖

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2822

标签: SenseNova U1, 商汤, 原生多模态, 统一模型, NEO-unify

阅读完整文章

查看原文 → 發佈: 2026-04-30 10:33:00 收錄: 2026-04-30 20:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。