← 回總覽

北大联合 Llama-Factory 推出 DataFlex:工业级数据动态训练系统

📅 2026-04-15 12:21 机器之心 人工智能 2 分鐘 1605 字 評分: 89
DataFlex 数据中心AI 大模型训练 动态数据调度 LLaMA-Factory
📌 一句话摘要 北京大学团队联合 Llama-Factory 等机构开源了 DataFlex,这是一个建立在 Llama-Factory 之上的统一数据中心动态训练框架,旨在将数据选择、混合和加权等动态调度能力系统化地融入大模型训练流程。 📝 详细摘要 文章介绍了由北京大学张文涛教授、鄂维南院士团队联合 LLaMA-Factory Team 等机构推出的 DataFlex 框架。该框架并非单一算法,而是一套旨在解决大模型训练中数据动态调度问题的统一基础设施。它将动态样本选择、动态数据混合和动态样本加权三类核心能力整合进训练闭环,使数据从静态输入变为可优化、可调度的对象。DataFlex 基

📌 一句话摘要

北京大学团队联合 Llama-Factory 等机构开源了 DataFlex,这是一个建立在 Llama-Factory 之上的统一数据中心动态训练框架,旨在将数据选择、混合和加权等动态调度能力系统化地融入大模型训练流程。

📝 详细摘要

文章介绍了由北京大学张文涛教授、鄂维南院士团队联合 LLaMA-Factory Team 等机构推出的 DataFlex 框架。该框架并非单一算法,而是一套旨在解决大模型训练中数据动态调度问题的统一基础设施。它将动态样本选择、动态数据混合和动态样本加权三类核心能力整合进训练闭环,使数据从静态输入变为可优化、可调度的对象。DataFlex 基于 LLaMA-Factory 构建,通过分层架构(基础层、训练器层、策略组件层)实现与现有生态的兼容和算法的即插即用。文章详细阐述了其设计哲学、核心功能(三类训练器)、使用方法,并展示了在样本选择、数据混合和训练效率方面的实验效果,表明动态方法普遍优于静态基线。DataFlex 旨在为 AI 研究提供可复现的平台,并为工业级训练提供实用系统。

💡 主要观点

- DataFlex 的核心价值在于将数据动态调度能力系统化、工程化。 它并非提出新算法,而是将学术界分散的数据选择、混合、加权方法统一整合到一套基于 LLaMA-Factory 的训练基础设施中,解决了方法复现难、工程落地门槛高的问题。

框架采用三层架构,实现了与现有生态的轻量级兼容和高效扩展。 在复用 LLaMA-Factory 基础能力的同时,抽象出训练器层和策略组件层,使不同数据策略能以统一接口接入,用户只需修改配置即可启用动态训练,迁移成本低。
实验证明动态数据调度能有效提升训练效率和模型性能。 在多项实验中,如 LESS、DoReMi、ODM 等方法通过 DataFlex 实现后,在模型准确率、困惑度以及训练耗时上均显示出优于静态基线(全量训练或固定配比)的结果。
DataFlex 与团队另一项目 DataFlow 共同构成数据闭环。 DataFlow 负责高质量数据提炼,DataFlex 负责在训练中智能调度数据,两者结合旨在构建从数据源头到模型训练的全链路数据中心 AI 基础设施。

💬 文章金句

- DataFlex 试图解决的,并不只是某一个训练技巧是否有效,而是一个更底层的系统问题:如何让数据像模型参数一样,成为训练过程中可以持续调度和优化的核心对象。

  • 它并不是单一算法或若干脚本的简单堆叠,而是一套建立在 LLaMA-Factory 之上的统一训练基础设施。
  • DataFlex 的价值,正是在于把这种原本零散、分散在不同方法和代码中的能力,推进为统一、标准化的训练机制。
  • 对用户来说,这接近一种「即插即用」的增强:已有的模型、数据集、训练参数配置都可以保留,只需要增加 DataFlex 相关配置,就能切换到以数据为中心的动态训练模式。
  • 大模型竞争的终点不在于单一算法的博弈,而在于构建一套统一、高效、且可复现的数据中心化基础设施。

📊 文章信息

AI 初评:89

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:20 分钟

字数:4812

标签: DataFlex, 数据中心AI, 大模型训练, 动态数据调度, LLaMA-Factory

阅读完整文章

查看原文 → 發佈: 2026-04-15 12:21:00 收錄: 2026-04-15 16:00:40

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。