NVIDIA AI-Q 通过模块化多智能体架构、微调的 Nemotron-3 模型以及专门的可靠性中间件,在深度研究基准测试中实现了最先进的性能。
📝 详细摘要
本文详细介绍了 NVIDIA AI-Q 背后的技术架构和训练方法,该系统最近在 DeepResearch Bench I 和 II 中排名第一。该系统采用了一个复杂的多智能体框架,由编排器、两阶段规划器(Scout 和 Architect)以及一个使用并行专家子智能体(如证据收集器、评论家)的研究器组成。其成功的关键因素是使用了定制微调的 NVIDIA Nemotron-3-Super-120B 模型,该模型基于 6.7 万条包含真实网络搜索的高质量研究轨迹进行了训练。此外,文章强调了通过定制中间件解决“长程可靠性”的重要性,这些中间件用于工具清理和推理感知重试,同时还配备了可选的集成和事后精炼层,以最大限度地提高报告的全面性和准确性。
💡 主要观点
- 模块化多智能体架构对于处理复杂的长程研究任务至关重要。 通过将规划、编排和专业研究解耦到不同的智能体中,系统可以保持上下文专注,并防止原始搜索噪声降低高层推理能力。
💬 文章金句
- 我们的规划器在确定结构之前就已了解信息图谱。它根据实际发现而非假设来决定在何处深入和扩展。
- 多智能体设计还充当了长上下文策略:每个子智能体在其自身的上下文窗口内工作,并仅返回其综合输出。
- 在那种规模(32 步以上)下,系统可能会以短时交互从未暴露的方式失败。
- 研究同一主题的不同专家通常会挖掘出单个通用模型会遗漏的证据。
- 在两个基准测试中均处于领先地位,意味着 AI-Q 深度研究员能够生成润色精美、引用充分的报告,并确保底层的检索和推理正确无误。
📊 文章信息
AI 评分:89
来源:Hugging Face Blog
作者:David Austin
分类:人工智能
语言:英文
阅读时间:7 分钟
字数:1669
标签: 深度研究智能体, 多智能体系统, LLM 微调, NVIDIA NeMo, 智能体工作流