今日开源（2026-4-29）：商汤 SenseNova-U1 推出，原生架构兼顾性能与效率，语言视觉统一处理突破适配器限制

📌 一句话摘要

本文汇总了 2026 年 4 月 29 日发布的 6 个开源 AI 项目，涵盖原生多模态模型 SenseNova-U1、NVIDIA Nemotron-3-Nano-Omni、机器人基础模型 LDA、VLA 基准 EBench、零样本提示重加权方法 CARPRT 和 3D 理解框架 VEGA-3D。

📝 详细摘要

文章以「今日开源」形式，精选了 2026 年 4 月 29 日发布的 6 个高质量开源 AI 项目，并附有简要介绍和项目链接。内容涵盖基座模型和框架工具两大类别。基座模型方面，商汤的 SenseNova-U1 采用 NEO-Unify 原生架构，无需适配器即可统一处理语言和视觉模态，在多项基准上达到 SOTA；NVIDIA 的 Nemotron-3-Nano-Omni 支持视频、音频、图像、文本多模态理解，适用于企业级场景；LDA 是 RSS 2026 收录的机器人基础模型，通过多质量数据联合学习实现优异泛化。框架工具方面，EBench 是上海人工智能实验室发布的室内 VLA 操作基准，提供多维度能力画像；CARPRT 是 ICLR 2026 收录的类感知零样本提示重加权方法，无需训练即可提升 CLIP 类模型效果；VEGA-3D 是即插即用框架，利用视频扩散模型隐式空间先验增强多模态大模型的 3D 理解能力。

💡 主要观点

- 商汤发布原生多模态模型 SenseNova-U1，采用 NEO-Unify 架构。 该架构无需适配器即可原生统一处理语言和视觉模态，实现端到端的多模态理解、推理与生成，在多项开源基准中达到 SOTA 水平，兼顾性能与效率。

NVIDIA 推出 Nemotron-3-Nano-Omni，支持多模态企业级应用。 该模型统一支持视频、音频、图像、文本理解，集成 GUI、OCR、语音转录能力，可满足客服、文档智能、媒体娱乐等企业级工作流需求，并支持商用。

上海 AI 实验室发布 EBench，提供多维度 VLA 操作能力评估。 EBench 基于 NVIDIA Isaac Sim 构建，可生成多维度能力画像，暴露模型优势与过拟合问题，覆盖长序列、灵巧精准、移动操作三类场景，评测结果更真实反映泛化能力。

💬 文章金句

- SenseNova-U1 采用 NEO-Unify 架构，无需适配器即可原生实现语言、视觉模态的统一处理，端到端打通多模态理解、推理、生成能力。

EBench 不同于传统仅输出整体成功率的评测方式，它可生成多维度能力画像，暴露模型优势与过拟合问题。
CARPRT 是 ICLR 2026 收录的针对黑盒视觉语言模型的类感知零样本提示重加权方法，无需训练，仅通过无标注数据估计类感知的提示权重。

📊 文章信息

AI 初评：80

来源：机器之心SOTA模型

作者：机器之心SOTA模型

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1026

标签：开源项目, 多模态模型, SenseNova-U1, Nemotron-3-Nano-Omni, 机器人基础模型

阅读完整文章

今日开源（2026-4-29）：商汤 SenseNova-U1 推出，原生架构兼顾性能与效率，语言视觉统一处理突破适配器限制

🤖 問 AI