← 回總覽

今日开源(2026-3-12):NVIDIA Nemotron-3-Super 重磅发布,LatentMoE 混合架构赋能多智能体高效推理

📅 2026-03-12 18:31 机器之心SOTA模型 人工智能 5 分鐘 5431 字 評分: 80
NVIDIA Nemotron LatentMoE 机器人学习 LeRobot
📌 一句话摘要 本文汇总了 2026 年 3 月 12 日的开源 AI 动态,重点介绍了 NVIDIA 的 Nemotron-3-Super 模型及 Hugging Face 的 LeRobot 机器人库等前沿项目。 📝 详细摘要 文章精选了六项最新的开源 AI 技术进展,涵盖了基座模型、多模态框架及机器人开发等领域。核心亮点包括 NVIDIA 发布的使用 LatentMoE 混合架构的 Nemotron-3-Super 模型,旨在提升 Agent 的推理与对话能力;首个自我中心视频声音理解基准 EgoSound;以及针对视觉文本渲染优化的 TextPecker 强化学习策略。此外,还介绍

Title: 今日开源(2026-3-12):NVIDIA Nemotron-3-Super 重磅发布,LatentMoE 混合架构赋能多智能体高效推理 | BestBlogs.dev

URL Source: https://www.bestblogs.dev/article/2484bf19

Published Time: 2026-03-12 10:31:00

Markdown Content: Sign in to use highlight and note-taking features for a better reading experience. Sign in now

原创 每日发现最新LLM 2026-03-12 18:31 中国香港

!Image 1

NVIDIA训练的大型语言模型Nemotron-3-Super,首个专为系统评估自我中心视频中的声音理解而设计的基准EgoSound,结构异常感知强化学习策略TextPecker,推理时动态模态选择框架DyMo,图像检索的新范式DeepImageSearch,端到端机器人学习开发库LeRobot v0.5.0

!Image 2 🏆基座模型 ①项目:Nemotron-3-Super

!Image 3

★Nemotron-3-Super是由NVIDIA训练的大型语言模型,旨在提供强大的Agent、推理和对话能力。该模型优化用于 协作Agent和高容量工作负载,如IT工单自动化。它采用混合Latent Mixture-of-Experts (LatentMoE) 架构,结合Mamba-2和MoE层,以及选择性注意力层。该模型支持多种语言,包括英语、法语、德语、意大利语、日语、西班牙语和中文。

☆一键收藏: https://sota.jiqizhixin.com/project/nemotron-3-super ②项目:EgoSound

!Image 4

★EgoSound是首个专为系统评估自我中心视频中的声音理解而设计的基准。它整合了Ego4D和EgoBlind的数据,涵盖了视觉和声音依赖的体验。通过多阶段自动生成 管道构建,EgoSound包含7,315个验证的问答对和900个自我中心视频,为推进多感官自我中心智能奠定了挑战性基础,弥合了视觉和听觉之间的差距。

☆一键收藏: https://sota.jiqizhixin.com/project/egosound ③项目:TextPecker

!Image 5

★TextPecker是一个用于增强视觉文本渲染的结构异常感知强化学习策略。该项目旨在解决文本到图像生成中常见的结构异常问题,如失真、模糊和错位。TextPecker通过构建带有字符级结构异常注释的 识别数据集,并开发笔画编辑合成引擎来扩展结构错误覆盖范围,从而提高文本生成模型的结构保真度和语义对齐度。实验表明,TextPecker在多种 文本到图像模型 上均有显著提升,尤其是在中文文本渲染方面,达到了新的高保真度视觉文本渲染的状态。

☆一键收藏: https://sota.jiqizhixin.com/project/textpecker

🛠️ 框架平台、必备工具 ①项目:DyMo

!Image 6

★DyMo是一个用于不完整多模态分类的推理时动态模态选择框架。该项目通过动态融合任务相关的恢复模态,解决了 丢弃-填补困境,提高了多模态分类的准确性。DyMo在PolyMNIST、MST和CelebA数据集上分别提高了1.61%、1.68%和3.88%的准确率。项目提供了官方的PyTorch实现,并包含多个基线和对比模型的实现。

☆一键收藏: https://sota.jiqizhixin.com/project/dymo ②项目:DeepImageSearch

!Image 7

★DeepImageSearch是一种图像检索的新范式,从独立的图像匹配进化到在视觉历史中进行语境推理。该项目旨在通过多步探索和推理,识别和返回符合自然语言查询的图像集。DISBench是 为此任务设计的第一 个基准,要求Agent自主规划搜索路径,发现跨图像的潜在关联,并通过多步探索将分散的视觉证据串联起来。ImageSeeker是一个模块化Agent框架,为多模态模型提供了 细粒度工具 和 双重记忆系统,以便在视觉历史中进行长时间导航。

☆一键收藏: https://sota.jiqizhixin.com/project/deepimagesearch

⚙️ Robotics 开发 ①项目:LeRobot v0.5.0

!Image 8

★LeRobot v0.5.0是Hugging Face开源的端到端机器人学习开发库,专为简化实体机器人与仿真机器人的AI训练、部署与推理打造。该版本通过整合SO-100/SO-101双臂机器人官方实现、精简冗余代码、强化类型检查与测试基建,大幅降低了 机器人操作、机械臂控制的 开发门槛,提升了框架的稳定性与易用性。项目依托Hugging Face生态,无缝对接主流机器人模型与数据集,支持快速复现、微调和部署强化学习策略,让开发者无需从零搭建复杂流程即可开发机器人AI系统。LeRobot提供开箱即用的PyTorch实现,兼容单臂 / 双臂机器人硬件,是机器人学习领域轻量化、高效率的主流开发工具。

☆一键收藏: https://sota.jiqizhixin.com/project/lerobot

!Image 9

!Image 10 阅读原文 跳转微信打开

查看原文 → 發佈: 2026-03-12 18:31:00 收錄: 2026-03-12 22:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。