← 回總覽

DataMaster:当 AI 开始成为自己的数据工程师

📅 2026-06-02 13:30 机器之心 人工智能 2 分鐘 1429 字 評分: 86
DataMaster 数据工程 AI 智能体 以数据为中心 自动化机器学习
📌 一句话摘要 DataMaster 提出一种自主数据工程框架,让 AI 智能体通过搜索、清洗、组合和复用数据,在不改变模型和训练算法的情况下持续提升下游性能。 📝 详细摘要 本文介绍了由上海交通大学、卡内基梅隆大学等机构提出的 DataMaster 框架,其核心思想是让 AI 智能体扮演数据工程师角色,在模型和训练算法固定的前提下,通过自动化数据工程来提升模型性能。DataMaster 设计了三个核心组件:数据树负责探索不同的数据改造路径,数据池共享已发现的数据源,全局记忆记录每次尝试的经验。在 MLE-Bench Lite 场景中,DataMaster 将奖牌率从 35.91% 提升至

📌 一句话摘要

DataMaster 提出一种自主数据工程框架,让 AI 智能体通过搜索、清洗、组合和复用数据,在不改变模型和训练算法的情况下持续提升下游性能。

📝 详细摘要

本文介绍了由上海交通大学、卡内基梅隆大学等机构提出的 DataMaster 框架,其核心思想是让 AI 智能体扮演数据工程师角色,在模型和训练算法固定的前提下,通过自动化数据工程来提升模型性能。DataMaster 设计了三个核心组件:数据树负责探索不同的数据改造路径,数据池共享已发现的数据源,全局记忆记录每次尝试的经验。在 MLE-Bench Lite 场景中,DataMaster 将奖牌率从 35.91% 提升至 68.18%;在 PostTrainBench 场景中,平均分从 8.47% 提升至 31.17%。特别是在 GPQA 高难度科学推理任务上,DataMaster 达到 31.02%,超过了专家训练的指令模型参考分数 30.35%。文章强调,数据工程不再是训练前的辅助步骤,而是可以进入智能体的决策循环,让 AI 参与决定自己应该学习什么数据。

💡 主要观点

- DataMaster 让 AI 智能体在模型和训练算法固定时,通过自动化数据工程提升性能。 框架不改变基础模型和训练流程,而是让智能体自动搜索、清洗、组合和复用数据,将数据工程从一次性前置步骤变为持续优化过程。

框架通过数据树、数据池和全局记忆三个组件实现自主数据探索。 数据树分叉探索不同数据改造路径,数据池共享候选数据源,全局记忆沉淀成功和失败经验,使系统能像数据工程团队一样积累经验。
在 GPQA 高难度科学推理任务上,DataMaster 超过了专家训练的指令模型。 通过自动发现和整合相关科学数据,DataMaster 在 GPQA 上达到 31.02%,超过人工设计的后训练数据参考分数 30.35%,且数据泄漏检查确认无污染。

💬 文章金句

- DataMaster 问的不是'怎样设计一个更强的模型',而是:当模型和训练流程都固定时,AI 能不能通过自己准备更好的数据,把模型继续训强?

  • 数据工程不是训练前的辅助步骤,也不是简单把数据量堆大。对于特定能力来说,真正重要的可能是能不能找到更相关的数据。
  • 当 AI 开始管理数据时,人类真正需要管理的,是 AI 管理数据的方式。
  • DataMaster 指向的是下一步:AI 开始参与决定自己应该学习什么数据。

📊 文章信息

AI 初评:86

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3427

标签: DataMaster, 数据工程, AI 智能体, 以数据为中心, 自动化机器学习

阅读完整文章

查看原文 → 發佈: 2026-06-02 13:30:00 收錄: 2026-06-02 20:00:49

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。