← 回總覽

今日开源(2026-4-29):商汤 SenseNova-U1 推出,原生架构兼顾性能与效率,语言视觉统一处理突破适配器限制

📅 2026-04-29 18:30 机器之心SOTA模型 人工智能 2 分鐘 1580 字 評分: 80
开源项目 多模态模型 SenseNova-U1 Nemotron-3-Nano-Omni 机器人基础模型
📌 一句话摘要 本文汇总了 2026 年 4 月 29 日发布的 6 个开源 AI 项目,涵盖原生多模态模型 SenseNova-U1、NVIDIA Nemotron-3-Nano-Omni、机器人基础模型 LDA、VLA 基准 EBench、零样本提示重加权方法 CARPRT 和 3D 理解框架 VEGA-3D。 📝 详细摘要 文章以「今日开源」形式,精选了 2026 年 4 月 29 日发布的 6 个高质量开源 AI 项目,并附有简要介绍和项目链接。内容涵盖基座模型和框架工具两大类别。基座模型方面,商汤的 SenseNova-U1 采用 NEO-Unify 原生架构,无需适配器即可统一

📌 一句话摘要

本文汇总了 2026 年 4 月 29 日发布的 6 个开源 AI 项目,涵盖原生多模态模型 SenseNova-U1、NVIDIA Nemotron-3-Nano-Omni、机器人基础模型 LDA、VLA 基准 EBench、零样本提示重加权方法 CARPRT 和 3D 理解框架 VEGA-3D。

📝 详细摘要

文章以「今日开源」形式,精选了 2026 年 4 月 29 日发布的 6 个高质量开源 AI 项目,并附有简要介绍和项目链接。内容涵盖基座模型和框架工具两大类别。基座模型方面,商汤的 SenseNova-U1 采用 NEO-Unify 原生架构,无需适配器即可统一处理语言和视觉模态,在多项基准上达到 SOTA;NVIDIA 的 Nemotron-3-Nano-Omni 支持视频、音频、图像、文本多模态理解,适用于企业级场景;LDA 是 RSS 2026 收录的机器人基础模型,通过多质量数据联合学习实现优异泛化。框架工具方面,EBench 是上海人工智能实验室发布的室内 VLA 操作基准,提供多维度能力画像;CARPRT 是 ICLR 2026 收录的类感知零样本提示重加权方法,无需训练即可提升 CLIP 类模型效果;VEGA-3D 是即插即用框架,利用视频扩散模型隐式空间先验增强多模态大模型的 3D 理解能力。

💡 主要观点

- 商汤发布原生多模态模型 SenseNova-U1,采用 NEO-Unify 架构。 该架构无需适配器即可原生统一处理语言和视觉模态,实现端到端的多模态理解、推理与生成,在多项开源基准中达到 SOTA 水平,兼顾性能与效率。

NVIDIA 推出 Nemotron-3-Nano-Omni,支持多模态企业级应用。 该模型统一支持视频、音频、图像、文本理解,集成 GUI、OCR、语音转录能力,可满足客服、文档智能、媒体娱乐等企业级工作流需求,并支持商用。
上海 AI 实验室发布 EBench,提供多维度 VLA 操作能力评估。 EBench 基于 NVIDIA Isaac Sim 构建,可生成多维度能力画像,暴露模型优势与过拟合问题,覆盖长序列、灵巧精准、移动操作三类场景,评测结果更真实反映泛化能力。

💬 文章金句

- SenseNova-U1 采用 NEO-Unify 架构,无需适配器即可原生实现语言、视觉模态的统一处理,端到端打通多模态理解、推理、生成能力。

  • EBench 不同于传统仅输出整体成功率的评测方式,它可生成多维度能力画像,暴露模型优势与过拟合问题。
  • CARPRT 是 ICLR 2026 收录的针对黑盒视觉语言模型的类感知零样本提示重加权方法,无需训练,仅通过无标注数据估计类感知的提示权重。

📊 文章信息

AI 初评:80

来源:机器之心SOTA模型

作者:机器之心SOTA模型

分类:人工智能

语言:中文

阅读时间:5 分钟

字数:1026

标签: 开源项目, 多模态模型, SenseNova-U1, Nemotron-3-Nano-Omni, 机器人基础模型

阅读完整文章

查看原文 → 發佈: 2026-04-29 18:30:00 收錄: 2026-04-29 22:00:45

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。