DataMaster 提出一种自主数据工程框架,让 AI 智能体通过搜索、清洗、组合和复用数据,在不改变模型和训练算法的情况下持续提升下游性能。
📝 详细摘要
本文介绍了由上海交通大学、卡内基梅隆大学等机构提出的 DataMaster 框架,其核心思想是让 AI 智能体扮演数据工程师角色,在模型和训练算法固定的前提下,通过自动化数据工程来提升模型性能。DataMaster 设计了三个核心组件:数据树负责探索不同的数据改造路径,数据池共享已发现的数据源,全局记忆记录每次尝试的经验。在 MLE-Bench Lite 场景中,DataMaster 将奖牌率从 35.91% 提升至 68.18%;在 PostTrainBench 场景中,平均分从 8.47% 提升至 31.17%。特别是在 GPQA 高难度科学推理任务上,DataMaster 达到 31.02%,超过了专家训练的指令模型参考分数 30.35%。文章强调,数据工程不再是训练前的辅助步骤,而是可以进入智能体的决策循环,让 AI 参与决定自己应该学习什么数据。
💡 主要观点
- DataMaster 让 AI 智能体在模型和训练算法固定时,通过自动化数据工程提升性能。 框架不改变基础模型和训练流程,而是让智能体自动搜索、清洗、组合和复用数据,将数据工程从一次性前置步骤变为持续优化过程。
💬 文章金句
- DataMaster 问的不是'怎样设计一个更强的模型',而是:当模型和训练流程都固定时,AI 能不能通过自己准备更好的数据,把模型继续训强?
- 数据工程不是训练前的辅助步骤,也不是简单把数据量堆大。对于特定能力来说,真正重要的可能是能不能找到更相关的数据。
- 当 AI 开始管理数据时,人类真正需要管理的,是 AI 管理数据的方式。
- DataMaster 指向的是下一步:AI 开始参与决定自己应该学习什么数据。
📊 文章信息
AI 初评:86
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3427
标签: DataMaster, 数据工程, AI 智能体, 以数据为中心, 自动化机器学习