← 回總覽

NVIDIA AI-Q 如何在 DeepResearch Bench I 和 II 中夺得第一

📅 2026-03-12 12:00 David Austin 人工智能 2 分鐘 1437 字 評分: 89
深度研究智能体 多智能体系统 LLM 微调 NVIDIA NeMo 智能体工作流
📌 一句话摘要 NVIDIA AI-Q 通过模块化多智能体架构、微调的 Nemotron-3 模型以及专门的可靠性中间件,在深度研究基准测试中实现了最先进的性能。 📝 详细摘要 本文详细介绍了 NVIDIA AI-Q 背后的技术架构和训练方法,该系统最近在 DeepResearch Bench I 和 II 中排名第一。该系统采用了一个复杂的多智能体框架,由编排器、两阶段规划器(Scout 和 Architect)以及一个使用并行专家子智能体(如证据收集器、评论家)的研究器组成。其成功的关键因素是使用了定制微调的 NVIDIA Nemotron-3-Super-120B 模型,该模型基于

📌 一句话摘要

NVIDIA AI-Q 通过模块化多智能体架构、微调的 Nemotron-3 模型以及专门的可靠性中间件,在深度研究基准测试中实现了最先进的性能。

📝 详细摘要

本文详细介绍了 NVIDIA AI-Q 背后的技术架构和训练方法,该系统最近在 DeepResearch Bench I 和 II 中排名第一。该系统采用了一个复杂的多智能体框架,由编排器、两阶段规划器(Scout 和 Architect)以及一个使用并行专家子智能体(如证据收集器、评论家)的研究器组成。其成功的关键因素是使用了定制微调的 NVIDIA Nemotron-3-Super-120B 模型,该模型基于 6.7 万条包含真实网络搜索的高质量研究轨迹进行了训练。此外,文章强调了通过定制中间件解决“长程可靠性”的重要性,这些中间件用于工具清理和推理感知重试,同时还配备了可选的集成和事后精炼层,以最大限度地提高报告的全面性和准确性。

💡 主要观点

- 模块化多智能体架构对于处理复杂的长程研究任务至关重要。 通过将规划、编排和专业研究解耦到不同的智能体中,系统可以保持上下文专注,并防止原始搜索噪声降低高层推理能力。

在真实搜索轨迹上进行微调可显著提升智能体性能。 NVIDIA 在包含实际网络搜索结果的 6.7 万条轨迹上训练了 Nemotron-3,教会模型如何处理真实数据并有效地进行多步综合。
基于证据的规划可防止报告中的幻觉和结构性错误。 Scout 子智能体在 Architect 确定报告结构之前先绘制信息图谱,确保规划是基于发现的事实而非假设。
需要定制中间件来减轻长时智能体运行中的失败模式。 工具名称清理、推理感知重试和预算强制执行等功能,确保智能体在涉及 32 步以上的序列中不会停滞或失败。
并行专家研究员能挖掘出通用模型经常遗漏的多样化证据。 使用不同的视角(例如用于理论的“机制探索者”和用于局限性的“评论家”)可确保跨多个维度的平衡且全面的分析。

💬 文章金句

- 我们的规划器在确定结构之前就已了解信息图谱。它根据实际发现而非假设来决定在何处深入和扩展。

  • 多智能体设计还充当了长上下文策略:每个子智能体在其自身的上下文窗口内工作,并仅返回其综合输出。
  • 在那种规模(32 步以上)下,系统可能会以短时交互从未暴露的方式失败。
  • 研究同一主题的不同专家通常会挖掘出单个通用模型会遗漏的证据。
  • 在两个基准测试中均处于领先地位,意味着 AI-Q 深度研究员能够生成润色精美、引用充分的报告,并确保底层的检索和推理正确无误。

📊 文章信息

AI 评分:89

来源:Hugging Face Blog

作者:David Austin

分类:人工智能

语言:英文

阅读时间:7 分钟

字数:1669

标签: 深度研究智能体, 多智能体系统, LLM 微调, NVIDIA NeMo, 智能体工作流

阅读完整文章

查看原文 → 發佈: 2026-03-12 12:00:40 收錄: 2026-03-12 14:01:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。