← 回總覽

让中小团队也玩得起 Deep Research:TAMU/Waterloo 团队把研究智能体的训练做成了开源流水线

📅 2026-03-29 13:04 机器之心 人工智能 2 分鐘 1414 字 評分: 92
OpenResearcher 深度研究智能体 轨迹合成 离线训练 AI Agent
📌 一句话摘要 OpenResearcher 推出首个开源离线深度研究轨迹合成流水线,通过模拟「搜索-浏览-推理」全流程,助力 30B 小模型在研究任务上超越 GPT-4.1 等闭源大模型。 📝 详细摘要 本文介绍了由德州农工大学和滑铁卢大学等机构联合开发的 OpenResearcher 项目。该项目旨在解决深度研究智能体(Deep Research Agent)训练中高质量长程轨迹数据匮乏且获取成本高昂的痛点。OpenResearcher 创新性地构建了一个包含 1500 万篇文档的离线搜索引擎,并利用教师模型在本地环境中合成了超过 9.7 万条包含 search、open、find 工

📌 一句话摘要

OpenResearcher 推出首个开源离线深度研究轨迹合成流水线,通过模拟「搜索-浏览-推理」全流程,助力 30B 小模型在研究任务上超越 GPT-4.1 等闭源大模型。

📝 详细摘要

本文介绍了由德州农工大学和滑铁卢大学等机构联合开发的 OpenResearcher 项目。该项目旨在解决深度研究智能体(Deep Research Agent)训练中高质量长程轨迹数据匮乏且获取成本高昂的痛点。OpenResearcher 创新性地构建了一个包含 1500 万篇文档的离线搜索引擎,并利用教师模型在本地环境中合成了超过 9.7 万条包含 search、open、find 工具调用的长程研究轨迹。实验表明,基于此数据微调的 30B 参数模型在 BrowseComp-Plus 基准测试中达到 54.8% 的准确率,显著超越了 GPT-4.1 和 Claude-4-Opus。该研究还揭示了搜索策略而非探索深度是研究任务的关键,且过程性信号的训练价值不亚于最终答案的正确性。

💡 主要观点

- OpenResearcher 通过离线合成流水线解决了深度研究智能体的数据瓶颈。 传统在线 API 采集方案成本高、不可复现且难以分析,离线流水线通过构建本地语料库实现了零边际成本、可复现的大规模轨迹合成。

采用「答案引导」的语料构建策略,兼顾了数据的可控性与真实感。 通过一次性收集含答案的 gold documents 并混入海量干扰文档,既保证了任务有解,又忠实模拟了互联网搜索的噪声环境。
30B 参数的小模型在深度研究任务上展现出超越顶级闭源模型的潜力。 仅通过离线合成轨迹的监督微调,模型在多个基准测试中超越了 GPT-4.1 等模型,证明了高质量合成过程数据对提升智能体能力的巨大价值。
研究发现搜索策略的质量是决定深度研究成败的核心因素。 失败轨迹的工具调用次数远多于成功轨迹,且多浪费在无效搜索上,说明单纯增加探索轮数边际收益递减,优化搜索逻辑才是关键。

💬 文章金句

- 训练一个能像人类研究员一样「搜索→浏览→推理」的深度研究智能体,最大的瓶颈往往不是模型能力,而是高质量长程研究轨迹数据的严重匮乏。

  • 失败不在步数,在策略:失败轨迹的平均工具调用次数几乎是成功轨迹的两倍,且额外调用主要集中在 search 操作上。
  • 轨迹中蕴含的搜索结构、工具调用模式、证据检查策略等过程性信号的价值并不逊色于最终答案的正确性。
  • OpenResearcher 的离线检索器将合成 9.7 万条轨迹的搜索成本从数万美元降至 0 美元。

📊 文章信息

AI 评分:92

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:22 分钟

字数:5280

标签: OpenResearcher, 深度研究智能体, 轨迹合成, 离线训练, AI Agent

阅读完整文章

查看原文 → 發佈: 2026-03-29 13:04:00 收錄: 2026-03-29 18:00:20

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。