英伟达发布 120B 参数开源 MoE 模型 Nemotron 3 Super,凭借 Mamba-Transformer 混合架构与 Blackwell 深度优化,在智能体推理与长文本任务中表现卓越。
📝 详细摘要
文章详细报道了英伟达最新发布的开源大模型 Nemotron 3 Super。该模型拥有 120B 参数,采用 MoE(混合专家)架构,在智能体控制(PinchBench)、代码攻坚(SWE-Bench)等多个基准测试中位居开源模型前列。技术核心在于其混合了 Mamba-2 与 Transformer 架构,兼顾了长序列处理效率与全局关联精度;同时引入 Latent MoE 降低推理成本,并原生适配 Blackwell 架构的 NVFP4 格式。此外,英伟达披露了未来五年投入 260 亿美元发展开源 AI 的战略,旨在通过软件实操定义未来硬件进化路径。
💡 主要观点
- Nemotron 3 Super 在智能体控制与代码任务中展现出顶尖的开源性能。 在 PinchBench 和 SWE-Bench 等测试中,该模型显著超越了 GPT-OSS,证明了其在复杂多步流程和软件工程任务中的实战能力。
💬 文章金句
- 这种设计交织使用了具备线性时间复杂度的 Mamba-2 层来处理长序列任务,并在关键深度插入了 Transformer 全局注意力层。
- 模型在 B200 芯片上跑出了比 H100 快四倍的推理速度,在极大降低内存需求的同时,依然维持了稳健的准确率表现。
- 这里的考核标准不再是简单的对话满意度,深入到了工具调用的准确性、功能代码的可执行性以及复杂计划的完整性等核心维度。
- 英伟达已经悄悄备好了 260 亿美元巨资,将在未来五年内将这笔充足弹药全盘倾注于构建开源 AI 模型。
- 真正实现由软件实操来定义硬件进化的技术路径。
📊 文章信息
AI 评分:89
来源:量子位
作者:克雷西
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2521
标签: 英伟达, Nemotron 3 Super, 开源模型, MoE, Mamba-Transformer