中国人民大学团队提出的 AiScientist 系统,通过 File-as-Bus 机制和层级化编排,解决了长程机器学习研究工程中的状态连续性问题,使 AI 能持续接手从论文理解到实验迭代的完整科研流程。
📝 详细摘要
本文报道了中国人民大学高瓴人工智能学院团队在 arXiv 上发布的 AiScientist 系统。该系统旨在解决长程机器学习研究工程的持续性难题,其核心创新在于 thin control over thick state 的设计理念和 File-as-Bus 机制。系统通过将项目状态(如分析、计划、代码、日志)以持久化文件的形式保存在工作区,而非依赖对话上下文,实现了跨阶段、跨轮次的状态连续与决策连贯。在 MLE-Bench Lite 的 Detecting Insults 任务中,AiScientist 在 23 小时内自主完成了 74 轮实验循环,将验证 AUC 从 0.903 提升至 0.982。论文指出,长程研究工程的瓶颈不仅是局部推理能力,更是系统能否在长时间跨度中保持连贯推进,而状态连续性(通过 File-as-Bus 实现)是比单纯增加 Agent 数量更关键的因素。
💡 主要观点
- 长程 ML 研究工程的核心挑战是状态连续性,而非单点能力。 AiScientist 聚焦于从论文理解到实验迭代的完整链路,其难点在于将高难度的局部环节(如环境配置、代码实现、错误归因)在长时间跨度中顺序串联并保持决策连贯,这是一个系统级问题。
durable artifacts。这使得后续阶段能基于真实证据而非对话摘要进行决策和错误归因,是系统能跑长的基石。
thin control over thick state 是有效的系统设计范式。
顶层 Orchestrator 进行轻量级阶段调度,而厚重的项目状态保存在外部文件系统中。这种设计让多智能体协作建立在稳定、可继承的状态之上,避免了因上下文丢失导致的决策断层。
💬 文章金句
- AiScientist 试图解决的并不是「再做一个更强的代码助手」,而是让 AI 在真实科研流程中,开始具备持续推进任务的能力。
- 真正的难点,不只是「这一轮会不会推理」,而是系统能不能在不同阶段之间保持 coherent progress。
- AiScientist 的核心设计理念,可以概括为一句话:thin control over thick state。
- 让系统跑长的关键,不只是多智能体分工本身,而是这些分工能否建立在稳定、可继承的项目状态之上。
- File-as-Bus 的价值,更多体现在后期 refinement,而不只是前期搭一个能跑的脚手架。
📊 文章信息
AI 初评:89
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4240
标签: AiScientist, AI for Research, 长程记忆, File-as-Bus, 机器学习研究工程