今日开源（2026-5-20）：NVIDIA 发布 Nemotron-Labs-Diffusion，三模式大语言模型支持 AR/扩散并行/自推测解码无缝切换

📌 一句话摘要

本文汇总了 2026 年 5 月 20 日发布的 6 个开源 AI 项目，涵盖 NVIDIA 三模式大语言模型、视频多模态模型、分层推理模型以及音视频工具等。

📝 详细摘要

文章以每日开源项目汇总的形式，介绍了 6 个最新发布的开源 AI 项目。核心项目包括 NVIDIA 的 Nemotron-Labs-Diffusion，这是一个支持 AR 解码、扩散并行解码和自推测解码三种模式无缝切换的大语言模型，旨在提升推理效率。其他项目包括：专为视频结构化信息提取设计的 2B 参数视频多模态模型 Marlin、基于分层推理架构的 1B 语言模型 HRM-Text、音视频智能领域资源汇总 Awesome-AVI、并行多模态搜索智能体 HyperEyes，以及为 ComfyUI 和 LTX2 视频扩散模型设计的自定义节点集合 10S-Comfy-nodes。文章为每个项目提供了简要介绍和链接，属于信息聚合类内容。

💡 主要观点

- NVIDIA 发布三模式大语言模型 Nemotron-Labs-Diffusion。 该模型支持 AR 解码、扩散并行解码和自推测解码三种模式，通过切换注意力模式实现无缝切换，旨在提升不同并发场景下的解码效率。

Marlin 是一款 2B 参数的开源视频多模态大模型。 专为视频结构化信息提取设计，支持输出带秒级时间戳的场景事件字幕和自然语言查询的视频时间区间定位，可在单张消费级 GPU 上运行。

HyperEyes 是一款并行多模态搜索智能体。 将视觉定位与检索融合为单一原子操作，支持对多个实体并发搜索，相比同类模型精度提升 9.9%，工具调用轮次平均降低 5.3 倍。

💬 文章金句

- NVIDIA 推出的三模式大语言模型，支持 AR 解码、扩散并行解码、自推测解码三种模式，仅需切换推理阶段的注意力模式即可实现无缝切换。

Marlin-2B 是一款 2B 参数量的开源视频多模态大模型，专为视频结构化信息提取设计，支持输出带秒级时间戳的场景事件字幕。
HyperEyes 是一款并行多模态搜索智能体，将视觉定位与检索能力融合为单一原子操作，可对多个实体同时开展并发搜索。

📊 文章信息

AI 初评：80

来源：机器之心SOTA模型

作者：机器之心SOTA模型

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1006

标签：开源项目, 大语言模型, 视频多模态, NVIDIA, ComfyUI

阅读完整文章

今日开源（2026-5-20）：NVIDIA 发布 Nemotron-Labs-Diffusion，三模式大语言模型支持 AR/扩散并行/自推测解码无缝切换

🤖 問 AI