OpenResearcher 推出首个开源离线深度研究轨迹合成流水线,通过模拟「搜索-浏览-推理」全流程,助力 30B 小模型在研究任务上超越 GPT-4.1 等闭源大模型。
📝 详细摘要
本文介绍了由德州农工大学和滑铁卢大学等机构联合开发的 OpenResearcher 项目。该项目旨在解决深度研究智能体(Deep Research Agent)训练中高质量长程轨迹数据匮乏且获取成本高昂的痛点。OpenResearcher 创新性地构建了一个包含 1500 万篇文档的离线搜索引擎,并利用教师模型在本地环境中合成了超过 9.7 万条包含 search、open、find 工具调用的长程研究轨迹。实验表明,基于此数据微调的 30B 参数模型在 BrowseComp-Plus 基准测试中达到 54.8% 的准确率,显著超越了 GPT-4.1 和 Claude-4-Opus。该研究还揭示了搜索策略而非探索深度是研究任务的关键,且过程性信号的训练价值不亚于最终答案的正确性。
💡 主要观点
- OpenResearcher 通过离线合成流水线解决了深度研究智能体的数据瓶颈。 传统在线 API 采集方案成本高、不可复现且难以分析,离线流水线通过构建本地语料库实现了零边际成本、可复现的大规模轨迹合成。
💬 文章金句
- 训练一个能像人类研究员一样「搜索→浏览→推理」的深度研究智能体,最大的瓶颈往往不是模型能力,而是高质量长程研究轨迹数据的严重匮乏。
- 失败不在步数,在策略:失败轨迹的平均工具调用次数几乎是成功轨迹的两倍,且额外调用主要集中在 search 操作上。
- 轨迹中蕴含的搜索结构、工具调用模式、证据检查策略等过程性信号的价值并不逊色于最终答案的正确性。
- OpenResearcher 的离线检索器将合成 9.7 万条轨迹的搜索成本从数万美元降至 0 美元。
📊 文章信息
AI 评分:92
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:22 分钟
字数:5280
标签: OpenResearcher, 深度研究智能体, 轨迹合成, 离线训练, AI Agent