NVIDIA AI-Q 如何在 DeepResearch Bench I 和 II 中夺得第一

📌 一句话摘要

NVIDIA AI-Q 通过模块化多智能体架构、微调的 Nemotron-3 模型以及专门的可靠性中间件，在深度研究基准测试中实现了最先进的性能。

📝 详细摘要

本文详细介绍了 NVIDIA AI-Q 背后的技术架构和训练方法，该系统最近在 DeepResearch Bench I 和 II 中排名第一。该系统采用了一个复杂的多智能体框架，由编排器、两阶段规划器（Scout 和 Architect）以及一个使用并行专家子智能体（如证据收集器、评论家）的研究器组成。其成功的关键因素是使用了定制微调的 NVIDIA Nemotron-3-Super-120B 模型，该模型基于 6.7 万条包含真实网络搜索的高质量研究轨迹进行了训练。此外，文章强调了通过定制中间件解决“长程可靠性”的重要性，这些中间件用于工具清理和推理感知重试，同时还配备了可选的集成和事后精炼层，以最大限度地提高报告的全面性和准确性。

💡 主要观点

- 模块化多智能体架构对于处理复杂的长程研究任务至关重要。 通过将规划、编排和专业研究解耦到不同的智能体中，系统可以保持上下文专注，并防止原始搜索噪声降低高层推理能力。

在真实搜索轨迹上进行微调可显著提升智能体性能。 NVIDIA 在包含实际网络搜索结果的 6.7 万条轨迹上训练了 Nemotron-3，教会模型如何处理真实数据并有效地进行多步综合。

基于证据的规划可防止报告中的幻觉和结构性错误。 Scout 子智能体在 Architect 确定报告结构之前先绘制信息图谱，确保规划是基于发现的事实而非假设。

需要定制中间件来减轻长时智能体运行中的失败模式。 工具名称清理、推理感知重试和预算强制执行等功能，确保智能体在涉及 32 步以上的序列中不会停滞或失败。

并行专家研究员能挖掘出通用模型经常遗漏的多样化证据。 使用不同的视角（例如用于理论的“机制探索者”和用于局限性的“评论家”）可确保跨多个维度的平衡且全面的分析。

💬 文章金句

- 我们的规划器在确定结构之前就已了解信息图谱。它根据实际发现而非假设来决定在何处深入和扩展。

多智能体设计还充当了长上下文策略：每个子智能体在其自身的上下文窗口内工作，并仅返回其综合输出。
在那种规模（32 步以上）下，系统可能会以短时交互从未暴露的方式失败。
研究同一主题的不同专家通常会挖掘出单个通用模型会遗漏的证据。
在两个基准测试中均处于领先地位，意味着 AI-Q 深度研究员能够生成润色精美、引用充分的报告，并确保底层的检索和推理正确无误。

📊 文章信息

AI 评分：89

来源：Hugging Face Blog

作者：David Austin

分类：人工智能

语言：英文

阅读时间：7 分钟

字数：1669

标签：深度研究智能体, 多智能体系统, LLM 微调, NVIDIA NeMo, 智能体工作流

阅读完整文章

NVIDIA AI-Q 如何在 DeepResearch Bench I 和 II 中夺得第一

🤖 問 AI