← 回總覽

最大开源中文预训练合成数据集来了!面壁清华端出 6000 亿 Token 大模型“精饲料”

📅 2026-05-29 21:34 智东西 人工智能 2 分鐘 1529 字 評分: 83
开源数据集 预训练 SFT 面壁智能 清华大学
📌 一句话摘要 面壁智能联合清华大学、OpenBMB 开源了最大中文预训练合成数据集 Ultra-FineWeb-L3(6000 亿 Token)和千万级 SFT 数据集 UltraData-SFT-2605,旨在缓解高质量训练数据短缺问题。 📝 详细摘要 本文报道了面壁智能、清华大学和 OpenBMB 联合发布的两大开源数据集。Ultra-FineWeb-L3 是目前最大规模的开源中文预训练合成数据集,总量超 6000 亿 Token,其中中文超 2000 亿。该数据集基于 L0-L4 五级数据分级治理体系构建,通过 L3 精炼方法从通用网页合成,在相同训练量下性能优于 FineWeb-

📌 一句话摘要

面壁智能联合清华大学、OpenBMB 开源了最大中文预训练合成数据集 Ultra-FineWeb-L3(6000 亿 Token)和千万级 SFT 数据集 UltraData-SFT-2605,旨在缓解高质量训练数据短缺问题。

📝 详细摘要

本文报道了面壁智能、清华大学和 OpenBMB 联合发布的两大开源数据集。Ultra-FineWeb-L3 是目前最大规模的开源中文预训练合成数据集,总量超 6000 亿 Token,其中中文超 2000 亿。该数据集基于 L0-L4 五级数据分级治理体系构建,通过 L3 精炼方法从通用网页合成,在相同训练量下性能优于 FineWeb-edu 等数据集。另一数据集 UltraData-SFT-2605 是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集,覆盖数学、代码、知识、指令遵循等领域,并具备数据溯源能力。文章还介绍了 UltraData 系列的前期工作,包括 UltraChat、UltraFeedback 等数据集和 2.4 万亿 Token 的训练数据。这些开源方案旨在降低端侧模型训练门槛,帮助厂商复现 MiniCPM5-1B 级别的模型能力。

💡 主要观点

- Ultra-FineWeb-L3 是最大规模的开源中文预训练合成数据集,总量超 6000 亿 Token。 该数据集基于 L3 精炼方法从通用网页合成,通过生成问答对、多风格文本改写优化数据质量,在相同训练量下性能优于 FineWeb-edu 等数据集。

UltraData-SFT-2605 是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集。 该数据集覆盖数学、代码、知识、指令遵循等领域,非思考数据用于快速问答,深思考数据附带完整推理过程,并具备数据溯源能力。
L0-L4 五级数据分级治理体系能系统化提升数据质量,模型性能提升效果平均提高 1.49 个百分点。 该体系从原始数据(L0)开始,依次做基础过滤(L1)、精筛数据(L2)、数据合成与增强(L3),最后得到可编排的数据(L4),每个环节都有对应处理规则。

💬 文章金句

- Ultra-FineWeb-L3 是中英文网页合成数据集,总量突破 6000 亿个 Token,英文 Token 数达 4000 亿个以上,中文则超 2000 亿个。

  • UltraData-SFT-2605 则是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集。
  • 按等级使用数据训练模型,模型性能提升效果比混用数据平均提升 1.49 个百分点。
  • 这批 L3 高质量数据让 1B 模型在数学、代码、推理等任务上,表现能接近更大的模型。

📊 文章信息

AI 初评:83

来源:智东西

作者:智东西

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2945

标签: 开源数据集, 预训练, SFT, 面壁智能, 清华大学

阅读完整文章

查看原文 → 發佈: 2026-05-29 21:34:00 收錄: 2026-05-30 02:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。