本文分析了商汤 SenseNova U1 模型作为原生多模态理解生成统一模型的技术范式意义,认为其统一表征空间、去除视觉编码器的架构可能成为下一代多模态模型的新方向。
📝 详细摘要
文章首先回顾了大模型发展的几个关键节点:推理范式(OpenAI o1)、原生多模态(Google Gemini)和原生 Agent(Anthropic Claude)。在此基础上,重点介绍了商汤最新发布的 SenseNova U1 模型。该模型采用 NEO-unify 架构,去掉了传统的视觉编码器(VE)和变分自编码器(VAE),直接在模型内部构建统一的像素与语义表征空间。这与当前主流原生多模态模型(如 Gemini)将图像切块编码后以 Token 形式进入语言模型的方式有本质区别,减少了信息损耗,并实现了理解与生成的统一——一个模型既能看懂图也能直接画图。作者通过多个实测案例(如作文配图、信息图表生成)展示了 U1 的能力,同时坦诚指出其目前稳定性和生成质量尚不及成熟产品。文章最后以 PPT 制作场景为例,阐述了统一模型在上下文连贯性上的优势,并预测该范式可能在一年内成为行业共识。
💡 主要观点
- 商汤 SenseNova U1 采用 NEO-unify 架构,去除了视觉编码器,构建了统一的像素与语义表征空间。 与当前主流原生多模态模型将图像切块编码后以 Token 形式进入语言模型不同,U1 在模型内部直接统一了视觉和语言表示,减少了信息转换过程中的损耗。
💬 文章金句
- U1 是让模型内部同时具备对像素和语义的统一表示能力,减少中间的转换过程,而不是先翻译成另一种形式再参与推理。这是本质的差别。
- 如果模型能原生理解图片,不需要这道翻译,那就更接近人脑了。视觉信息可以直接和文本信息混在一起参与推理。
- 现在原生多模态模型也已经是共识了。未来一年内,也许原生多模态理解和生成又会成为新的共识。
📊 文章信息
AI 初评:83
来源:AI产品阿颖
作者:阿颖
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2822
标签: SenseNova U1, 商汤, 原生多模态, 统一模型, NEO-unify