让中小团队也玩得起 Deep Research：TAMU/Waterloo 团队把研究智能体的训练做成了开源流水线

📌 一句话摘要

OpenResearcher 推出首个开源离线深度研究轨迹合成流水线，通过模拟「搜索-浏览-推理」全流程，助力 30B 小模型在研究任务上超越 GPT-4.1 等闭源大模型。

📝 详细摘要

本文介绍了由德州农工大学和滑铁卢大学等机构联合开发的 OpenResearcher 项目。该项目旨在解决深度研究智能体（Deep Research Agent）训练中高质量长程轨迹数据匮乏且获取成本高昂的痛点。OpenResearcher 创新性地构建了一个包含 1500 万篇文档的离线搜索引擎，并利用教师模型在本地环境中合成了超过 9.7 万条包含 search、open、find 工具调用的长程研究轨迹。实验表明，基于此数据微调的 30B 参数模型在 BrowseComp-Plus 基准测试中达到 54.8% 的准确率，显著超越了 GPT-4.1 和 Claude-4-Opus。该研究还揭示了搜索策略而非探索深度是研究任务的关键，且过程性信号的训练价值不亚于最终答案的正确性。

💡 主要观点

- OpenResearcher 通过离线合成流水线解决了深度研究智能体的数据瓶颈。 传统在线 API 采集方案成本高、不可复现且难以分析，离线流水线通过构建本地语料库实现了零边际成本、可复现的大规模轨迹合成。

采用「答案引导」的语料构建策略，兼顾了数据的可控性与真实感。 通过一次性收集含答案的 gold documents 并混入海量干扰文档，既保证了任务有解，又忠实模拟了互联网搜索的噪声环境。

30B 参数的小模型在深度研究任务上展现出超越顶级闭源模型的潜力。 仅通过离线合成轨迹的监督微调，模型在多个基准测试中超越了 GPT-4.1 等模型，证明了高质量合成过程数据对提升智能体能力的巨大价值。

研究发现搜索策略的质量是决定深度研究成败的核心因素。 失败轨迹的工具调用次数远多于成功轨迹，且多浪费在无效搜索上，说明单纯增加探索轮数边际收益递减，优化搜索逻辑才是关键。

💬 文章金句

- 训练一个能像人类研究员一样「搜索→浏览→推理」的深度研究智能体，最大的瓶颈往往不是模型能力，而是高质量长程研究轨迹数据的严重匮乏。

失败不在步数，在策略：失败轨迹的平均工具调用次数几乎是成功轨迹的两倍，且额外调用主要集中在 search 操作上。
轨迹中蕴含的搜索结构、工具调用模式、证据检查策略等过程性信号的价值并不逊色于最终答案的正确性。
OpenResearcher 的离线检索器将合成 9.7 万条轨迹的搜索成本从数万美元降至 0 美元。

📊 文章信息

AI 评分：92

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5280

标签： OpenResearcher, 深度研究智能体, 轨迹合成, 离线训练, AI Agent

阅读完整文章

让中小团队也玩得起 Deep Research：TAMU/Waterloo 团队把研究智能体的训练做成了开源流水线

🤖 問 AI