面壁智能联合清华大学、OpenBMB 开源了最大中文预训练合成数据集 Ultra-FineWeb-L3(6000 亿 Token)和千万级 SFT 数据集 UltraData-SFT-2605,旨在缓解高质量训练数据短缺问题。
📝 详细摘要
本文报道了面壁智能、清华大学和 OpenBMB 联合发布的两大开源数据集。Ultra-FineWeb-L3 是目前最大规模的开源中文预训练合成数据集,总量超 6000 亿 Token,其中中文超 2000 亿。该数据集基于 L0-L4 五级数据分级治理体系构建,通过 L3 精炼方法从通用网页合成,在相同训练量下性能优于 FineWeb-edu 等数据集。另一数据集 UltraData-SFT-2605 是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集,覆盖数学、代码、知识、指令遵循等领域,并具备数据溯源能力。文章还介绍了 UltraData 系列的前期工作,包括 UltraChat、UltraFeedback 等数据集和 2.4 万亿 Token 的训练数据。这些开源方案旨在降低端侧模型训练门槛,帮助厂商复现 MiniCPM5-1B 级别的模型能力。
💡 主要观点
- Ultra-FineWeb-L3 是最大规模的开源中文预训练合成数据集,总量超 6000 亿 Token。 该数据集基于 L3 精炼方法从通用网页合成,通过生成问答对、多风格文本改写优化数据质量,在相同训练量下性能优于 FineWeb-edu 等数据集。
💬 文章金句
- Ultra-FineWeb-L3 是中英文网页合成数据集,总量突破 6000 亿个 Token,英文 Token 数达 4000 亿个以上,中文则超 2000 亿个。
- UltraData-SFT-2605 则是国内首次开源的千万级、同时包含深思考与非思考标注的 SFT 数据集。
- 按等级使用数据训练模型,模型性能提升效果比混用数据平均提升 1.49 个百分点。
- 这批 L3 高质量数据让 1B 模型在数学、代码、推理等任务上,表现能接近更大的模型。
📊 文章信息
AI 初评:83
来源:智东西
作者:智东西
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2945
标签: 开源数据集, 预训练, SFT, 面壁智能, 清华大学