英伟达全模态大模型来了，几秒搞定老黄 3 分钟演讲，吞吐量同类 9 倍

📌 一句话摘要

英伟达发布全模态开源模型 Nemotron 3 Nano Omni，在单一架构内融合文本、视觉、语音处理能力，吞吐量达同类模型的 9 倍，并已在多项基准测试中取得领先。

📝 详细摘要

英伟达于 2026 年 4 月 28 日推出 Nemotron 3 Nano Omni，这是一款将文本、图像、音频、视频等多种模态处理能力统一于单一模型体系的开源多模态推理模型。其核心创新在于混合型 MoE 架构，深度融合 Mamba 层（提升序列处理效率）与 Transformer 层（保障推理精度），使内存和计算效率最高提升 4 倍，整体吞吐量达到同类开放多模态模型的 9 倍。该模型在 OCRBenchV2、DailyOmni、VoiceBench 等多项文档智能、视频与音频理解榜单上取得领先，超过 Qwen3-Omni-30B-A3B-Thinking 和 Gemini 2.5 Flash。文章通过海外博主的实测案例展示了模型快速解析演讲视频、定位关键片段、理解技术文档的能力。模型主要面向计算机用户代理、企业文档智能、音视频理解等场景，提供开放权重和商用授权。文章最后分析了该模型在英伟达 AI 战略中的定位，认为其有助于构建推理 GPU 硬件、加速软件框架、自研模型的三位一体生态。

💡 主要观点

- Nemotron 3 Nano Omni 在单一架构内统一了文本、视觉、语音三大模态的处理能力。 不同于需要组合多个单模态模型的方案，该模型能直接处理文本、图像、音频、视频等多种输入并以文本输出，简化了多模态应用的系统复杂度。

混合型 MoE 架构融合 Mamba 层与 Transformer 层，实现了高吞吐与高能效。 Mamba 层提升序列处理效率和内存利用率，Transformer 层保障精准推理，这种设计使模型在视频和多文档推理任务中的有效系统容量分别达到同类模型的 9.2 倍和 7.4 倍。

模型在多项多模态基准测试中取得领先，并具备快速理解长视频内容的能力。 在 DailyOmni、VoiceBench 等榜单上排名第一，超过 Qwen3-Omni-30B-A3B-Thinking 和 Gemini 2.5 Flash。实测显示，模型能在几秒内解析数分钟的演讲视频并定位关键片段。

💬 文章金句

- 一个模型搞定文本、视觉、语音。

Nemotron 3 Nano Omni 的核心差异化，不在于单项性能突破，而是四大优势的独家集合：单模型统一视觉、音频、文本多模态感知、混合专家高能效适配边缘部署、开源权重开放、完全商用授权。
若其成为智能体部署的主流选择，英伟达将实现推理 GPU 硬件、优化加速软件框架、自研上层模型的三位一体。

📊 文章信息

AI 初评：85

来源：智东西

作者：智东西

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2320

标签：英伟达, Nemotron 3 Nano Omni, 多模态模型, MoE, 开源模型

阅读完整文章

英伟达全模态大模型来了，几秒搞定老黄 3 分钟演讲，吞吐量同类 9 倍

🤖 問 AI