这张信息图，居然是 8B 开源模型做的？？

📌 一句话摘要

本文深度评测了商汤最新开源的 8B 多模态模型 SenseNova U1，展示了其在信息图生成、图文交错输出和本地部署方面的惊人能力，并探讨了其在实际创作场景中的应用价值。

📝 详细摘要

文章作者「花叔」分享了他对商汤新开源模型 SenseNova U1 的深度体验。该模型采用创新的 NEO-Unify 架构，摒弃了传统的视觉编码器和 VAE，直接处理原始像素，实现了 8B 参数下的高效多模态能力。作者通过大量实测，展示了 U1 在信息图生成上的出色表现，包括对复杂版式、特定风格（如 Anthropic 编辑风）的精准复现，以及极快的生成速度（2K 信息图约十几秒）。文章重点介绍了 U1 的核心差异化能力——「图文交错」输出，即模型在一次推理中自动生成多张连贯图片并配以解释性文字，这是当前主流闭源模型无法实现的功能。作者还坦诚指出了模型的边界，如少量错字问题，但认为这些不影响其核心价值。最后，文章总结了 U1 最适合的场景：自媒体创作、数据敏感行业和长链路 Agent 任务，并提供了上手入口。

💡 主要观点

- 商汤开源 8B 模型 SenseNova U1，采用创新的 NEO-Unify 架构，直接处理像素，实现高效多模态。 该架构摒弃了传统视觉编码器和 VAE，让模型直接学习原始像素的视觉表征，在 8B 参数下实现了图像理解和生成的双重 SoTA 性能，部分指标接近商业闭源大模型。

U1 在信息图生成上表现突出，速度快、风格稳定，能精准执行复杂排版指令。 作者实测显示，U1 能稳定复现 Anthropic 博客编辑风等特定风格，生成 2K 信息图仅需十几秒，速度远超 GPT-Image-2 等闭源模型，且文字渲染准确度令人意外。

「图文交错」输出是 U1 的核心差异化能力，能一次推理生成多图并配文，超越当前主流模型。 U1 可在一次推理中自动生成多张连贯图片（如不同视角的建筑设计图）并配以解释性文字，实现「带图思考」，这是 GPT-Image-2 等单点生图模型无法做到的。

U1 的本地部署能力为数据敏感行业和长链路 Agent 场景提供了新可能。 8B 模型对硬件要求不高，可在本地运行，解决了医疗、金融等行业的隐私问题，同时零边际成本和高速度使其适合需要批量出图的 Agent 工作流。

💬 文章金句

- 它把 Visual Encoder 和 VAE 都砍了。这种敢于重新画路线的事，在已开源的多模态模型里其实不常见。

一个 8B 的开源模型同时具备这种程度的思考能力和图像生成能力，这件事老实说我之前没怎么见过。
真正重要的是它让我能用一个 8B 的开源模型，在本地跑出可以直接用的书籍级配图。这件事两个月前我都不敢想。
有些场景，确实从这周开始变得不一样了。

📊 文章信息

AI 初评：87

来源：花叔

作者：花叔

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3085

标签： SenseNova U1, 商汤, 开源模型, 多模态, 信息图

阅读完整文章

这张信息图，居然是 8B 开源模型做的？？

🤖 問 AI