北大联合 Llama-Factory 推出 DataFlex：工业级数据动态训练系统

📌 一句话摘要

北京大学团队联合 Llama-Factory 等机构开源了 DataFlex，这是一个建立在 Llama-Factory 之上的统一数据中心动态训练框架，旨在将数据选择、混合和加权等动态调度能力系统化地融入大模型训练流程。

📝 详细摘要

文章介绍了由北京大学张文涛教授、鄂维南院士团队联合 LLaMA-Factory Team 等机构推出的 DataFlex 框架。该框架并非单一算法，而是一套旨在解决大模型训练中数据动态调度问题的统一基础设施。它将动态样本选择、动态数据混合和动态样本加权三类核心能力整合进训练闭环，使数据从静态输入变为可优化、可调度的对象。DataFlex 基于 LLaMA-Factory 构建，通过分层架构（基础层、训练器层、策略组件层）实现与现有生态的兼容和算法的即插即用。文章详细阐述了其设计哲学、核心功能（三类训练器）、使用方法，并展示了在样本选择、数据混合和训练效率方面的实验效果，表明动态方法普遍优于静态基线。DataFlex 旨在为 AI 研究提供可复现的平台，并为工业级训练提供实用系统。

💡 主要观点

- DataFlex 的核心价值在于将数据动态调度能力系统化、工程化。 它并非提出新算法，而是将学术界分散的数据选择、混合、加权方法统一整合到一套基于 LLaMA-Factory 的训练基础设施中，解决了方法复现难、工程落地门槛高的问题。

框架采用三层架构，实现了与现有生态的轻量级兼容和高效扩展。 在复用 LLaMA-Factory 基础能力的同时，抽象出训练器层和策略组件层，使不同数据策略能以统一接口接入，用户只需修改配置即可启用动态训练，迁移成本低。

实验证明动态数据调度能有效提升训练效率和模型性能。 在多项实验中，如 LESS、DoReMi、ODM 等方法通过 DataFlex 实现后，在模型准确率、困惑度以及训练耗时上均显示出优于静态基线（全量训练或固定配比）的结果。

DataFlex 与团队另一项目 DataFlow 共同构成数据闭环。 DataFlow 负责高质量数据提炼，DataFlex 负责在训练中智能调度数据，两者结合旨在构建从数据源头到模型训练的全链路数据中心 AI 基础设施。

💬 文章金句

- DataFlex 试图解决的，并不只是某一个训练技巧是否有效，而是一个更底层的系统问题：如何让数据像模型参数一样，成为训练过程中可以持续调度和优化的核心对象。

它并不是单一算法或若干脚本的简单堆叠，而是一套建立在 LLaMA-Factory 之上的统一训练基础设施。
DataFlex 的价值，正是在于把这种原本零散、分散在不同方法和代码中的能力，推进为统一、标准化的训练机制。
对用户来说，这接近一种「即插即用」的增强：已有的模型、数据集、训练参数配置都可以保留，只需要增加 DataFlex 相关配置，就能切换到以数据为中心的动态训练模式。
大模型竞争的终点不在于单一算法的博弈，而在于构建一套统一、高效、且可复现的数据中心化基础设施。

📊 文章信息

AI 初评：89

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4812

标签： DataFlex, 数据中心AI, 大模型训练, 动态数据调度, LLaMA-Factory

阅读完整文章

北大联合 Llama-Factory 推出 DataFlex：工业级数据动态训练系统

🤖 問 AI