面壁智能开源了 MiniCPM5-1B 背后的核心数据集 UltraData,包含 600B tokens 的 L3 级预训练数据和千万级 SFT 数据,并公开了完整的数据治理方法论,强调在端侧模型竞争中数据质量才是真正的壁垒。
📝 详细摘要
本文深入分析了面壁智能最新开源的 UltraData 数据集及其在 MiniCPM5-1B 端侧模型成功中的关键作用。文章首先指出,在 1B 参数级别,模型的容噪能力极低,数据质量比数据规模更重要。随后详细介绍了 UltraData 的 L0-L3 分级数据治理体系,重点解读了两份核心开源数据:Ultra-FineWeb-L3(600B tokens,目前最大的中文开源合成预训练数据集,用于预训练退火阶段)和 UltraData-SFT-2605(千万级后训练数据,国内首份同时覆盖深思考和非思考双模式的 SFT 数据集)。文章还拆解了 MiniCPM5-1B 的四级数据递进训练策略,并引用了对比实验数据证明 L3 级数据在训练后期带来的显著性能提升。最后,文章指出在端侧模型领域,模型架构趋同,数据才是真正的竞争壁垒,此次开源为端侧 AI 团队提供了可复用的数据配方和工程实践。
💡 主要观点
- 在 1B 参数级别的端侧模型中,数据质量比数据规模更重要。 小模型容噪能力极低,低质量数据会严重损害性能,因此需要高纯度的合成数据来提升智能密度。
💬 文章金句
- 数据才是真壁垒!
- 因为到 1B 这个体量,模型的容噪能力几乎是零,数据多了没用,数据脏了反有大毒。
- L3 这层的做法就是把知识提纯、凝练后再喂给模型,让模型吸收的更好。
- 模型架构可以抄,数据才是真壁垒。
- 在手机、PC、手表、汽车这些场景上,1B 和 2B 的体验差距,远没有数据质量带来的差距大。
📊 文章信息
AI 初评:86
来源:夕小瑶科技说
作者:夕小瑶科技说
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2824
标签: 端侧模型, 数据治理, MiniCPM, 预训练数据, SFT