数据比模型更值钱，国内最大的「端侧」训练数据开源了！600B 预训练+千万级 SFT 核心数据配方公开

📌 一句话摘要

面壁智能开源了 MiniCPM5-1B 背后的核心数据集 UltraData，包含 600B tokens 的 L3 级预训练数据和千万级 SFT 数据，并公开了完整的数据治理方法论，强调在端侧模型竞争中数据质量才是真正的壁垒。

📝 详细摘要

本文深入分析了面壁智能最新开源的 UltraData 数据集及其在 MiniCPM5-1B 端侧模型成功中的关键作用。文章首先指出，在 1B 参数级别，模型的容噪能力极低，数据质量比数据规模更重要。随后详细介绍了 UltraData 的 L0-L3 分级数据治理体系，重点解读了两份核心开源数据：Ultra-FineWeb-L3（600B tokens，目前最大的中文开源合成预训练数据集，用于预训练退火阶段）和 UltraData-SFT-2605（千万级后训练数据，国内首份同时覆盖深思考和非思考双模式的 SFT 数据集）。文章还拆解了 MiniCPM5-1B 的四级数据递进训练策略，并引用了对比实验数据证明 L3 级数据在训练后期带来的显著性能提升。最后，文章指出在端侧模型领域，模型架构趋同，数据才是真正的竞争壁垒，此次开源为端侧 AI 团队提供了可复用的数据配方和工程实践。

💡 主要观点

- 在 1B 参数级别的端侧模型中，数据质量比数据规模更重要。 小模型容噪能力极低，低质量数据会严重损害性能，因此需要高纯度的合成数据来提升智能密度。

面壁智能开源了 UltraData 数据集，包含 L3 级预训练数据和双模式 SFT 数据。 Ultra-FineWeb-L3 是 600B tokens 的合成预训练数据，用于退火阶段；UltraData-SFT-2605 是千万级 SFT 数据，同时覆盖深思考和非思考模式，是国内首份此类开源数据集。

L3 级数据治理通过大模型对原始数据进行合成与增强，是小模型性能提升的关键。 L3 层将原始网页加工为问答对、多风格文本等高密度知识形态，帮助小模型更高效地吸收知识，对比实验显示其优势随训练推进愈发明显。

MiniCPM5-1B 采用四级数据递进策略，从基础塑形到对齐打磨。 训练管线依次使用 L1 基础数据、L2 精筛数据、L3 合成数据和 SFT+RL 对齐数据，逐步提升模型的语言能力、专业能力和复杂推理能力。

在端侧模型竞争中，数据是真正的壁垒，模型架构和权重已趋同。 各大厂商开源模型但不开源数据，此次面壁智能公开完整数据配方和工程实践，为端侧 AI 团队提供了可复用的高质量数据生产路径。

💬 文章金句

- 数据才是真壁垒！

因为到 1B 这个体量，模型的容噪能力几乎是零，数据多了没用，数据脏了反有大毒。
L3 这层的做法就是把知识提纯、凝练后再喂给模型，让模型吸收的更好。
模型架构可以抄，数据才是真壁垒。
在手机、PC、手表、汽车这些场景上，1B 和 2B 的体验差距，远没有数据质量带来的差距大。

📊 文章信息

AI 初评：86

来源：夕小瑶科技说

作者：夕小瑶科技说

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2824

标签：端侧模型, 数据治理, MiniCPM, 预训练数据, SFT

阅读完整文章

数据比模型更值钱，国内最大的「端侧」训练数据开源了！600B 预训练+千万级 SFT 核心数据配方公开

🤖 問 AI