最大开源中文预训练合成数据集来了！面壁清华端出 6000 亿 Token 大模型“精饲料”

📌 一句话摘要

面壁智能联合清华大学、OpenBMB 开源了最大中文预训练合成数据集 Ultra-FineWeb-L3（6000 亿 Token）和千万级 SFT 数据集 UltraData-SFT-2605，旨在缓解高质量训练数据短缺问题。

📝 详细摘要

本文报道了面壁智能、清华大学和 OpenBMB 联合发布的两大开源数据集。Ultra-FineWeb-L3 是目前最大规模的开源中文预训练合成数据集，总量超 6000 亿 Token，其中中文超 2000 亿。该数据集基于 L0-L4 五级数据分级治理体系构建，通过 L3 精炼方法从通用网页合成，在相同训练量下性能优于 FineWeb-edu 等数据集。另一数据集 UltraData-SFT-2605 是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集，覆盖数学、代码、知识、指令遵循等领域，并具备数据溯源能力。文章还介绍了 UltraData 系列的前期工作，包括 UltraChat、UltraFeedback 等数据集和 2.4 万亿 Token 的训练数据。这些开源方案旨在降低端侧模型训练门槛，帮助厂商复现 MiniCPM5-1B 级别的模型能力。

💡 主要观点

- Ultra-FineWeb-L3 是最大规模的开源中文预训练合成数据集，总量超 6000 亿 Token。 该数据集基于 L3 精炼方法从通用网页合成，通过生成问答对、多风格文本改写优化数据质量，在相同训练量下性能优于 FineWeb-edu 等数据集。

UltraData-SFT-2605 是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集。 该数据集覆盖数学、代码、知识、指令遵循等领域，非思考数据用于快速问答，深思考数据附带完整推理过程，并具备数据溯源能力。

L0-L4 五级数据分级治理体系能系统化提升数据质量，模型性能提升效果平均提高 1.49 个百分点。 该体系从原始数据（L0）开始，依次做基础过滤（L1）、精筛数据（L2）、数据合成与增强（L3），最后得到可编排的数据（L4），每个环节都有对应处理规则。

💬 文章金句

- Ultra-FineWeb-L3 是中英文网页合成数据集，总量突破 6000 亿个 Token，英文 Token 数达 4000 亿个以上，中文则超 2000 亿个。

UltraData-SFT-2605 则是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集。
按等级使用数据训练模型，模型性能提升效果比混用数据平均提升 1.49 个百分点。
这批 L3 高质量数据让 1B 模型在数学、代码、推理等任务上，表现能接近更大的模型。

📊 文章信息

AI 初评：83

来源：智东西

作者：智东西

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2945

标签：开源数据集, 预训练, SFT, 面壁智能, 清华大学

阅读完整文章

最大开源中文预训练合成数据集来了！面壁清华端出 6000 亿 Token 大模型“精饲料”

🤖 問 AI