← 回總覽

数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

📅 2026-05-29 13:50 夕小瑶科技说 人工智能 2 分鐘 1648 字 評分: 86
端侧模型 数据治理 MiniCPM 预训练数据 SFT
📌 一句话摘要 面壁智能开源了 MiniCPM5-1B 背后的核心数据集 UltraData,包含 600B tokens 的 L3 级预训练数据和千万级 SFT 数据,并公开了完整的数据治理方法论,强调在端侧模型竞争中数据质量才是真正的壁垒。 📝 详细摘要 本文深入分析了面壁智能最新开源的 UltraData 数据集及其在 MiniCPM5-1B 端侧模型成功中的关键作用。文章首先指出,在 1B 参数级别,模型的容噪能力极低,数据质量比数据规模更重要。随后详细介绍了 UltraData 的 L0-L3 分级数据治理体系,重点解读了两份核心开源数据:Ultra-FineWeb-L3(600

📌 一句话摘要

面壁智能开源了 MiniCPM5-1B 背后的核心数据集 UltraData,包含 600B tokens 的 L3 级预训练数据和千万级 SFT 数据,并公开了完整的数据治理方法论,强调在端侧模型竞争中数据质量才是真正的壁垒。

📝 详细摘要

本文深入分析了面壁智能最新开源的 UltraData 数据集及其在 MiniCPM5-1B 端侧模型成功中的关键作用。文章首先指出,在 1B 参数级别,模型的容噪能力极低,数据质量比数据规模更重要。随后详细介绍了 UltraData 的 L0-L3 分级数据治理体系,重点解读了两份核心开源数据:Ultra-FineWeb-L3(600B tokens,目前最大的中文开源合成预训练数据集,用于预训练退火阶段)和 UltraData-SFT-2605(千万级后训练数据,国内首份同时覆盖深思考和非思考双模式的 SFT 数据集)。文章还拆解了 MiniCPM5-1B 的四级数据递进训练策略,并引用了对比实验数据证明 L3 级数据在训练后期带来的显著性能提升。最后,文章指出在端侧模型领域,模型架构趋同,数据才是真正的竞争壁垒,此次开源为端侧 AI 团队提供了可复用的数据配方和工程实践。

💡 主要观点

- 在 1B 参数级别的端侧模型中,数据质量比数据规模更重要。 小模型容噪能力极低,低质量数据会严重损害性能,因此需要高纯度的合成数据来提升智能密度。

面壁智能开源了 UltraData 数据集,包含 L3 级预训练数据和双模式 SFT 数据。 Ultra-FineWeb-L3 是 600B tokens 的合成预训练数据,用于退火阶段;UltraData-SFT-2605 是千万级 SFT 数据,同时覆盖深思考和非思考模式,是国内首份此类开源数据集。
L3 级数据治理通过大模型对原始数据进行合成与增强,是小模型性能提升的关键。 L3 层将原始网页加工为问答对、多风格文本等高密度知识形态,帮助小模型更高效地吸收知识,对比实验显示其优势随训练推进愈发明显。
MiniCPM5-1B 采用四级数据递进策略,从基础塑形到对齐打磨。 训练管线依次使用 L1 基础数据、L2 精筛数据、L3 合成数据和 SFT+RL 对齐数据,逐步提升模型的语言能力、专业能力和复杂推理能力。
在端侧模型竞争中,数据是真正的壁垒,模型架构和权重已趋同。 各大厂商开源模型但不开源数据,此次面壁智能公开完整数据配方和工程实践,为端侧 AI 团队提供了可复用的高质量数据生产路径。

💬 文章金句

- 数据才是真壁垒!

  • 因为到 1B 这个体量,模型的容噪能力几乎是零,数据多了没用,数据脏了反有大毒。
  • L3 这层的做法就是把知识提纯、凝练后再喂给模型,让模型吸收的更好。
  • 模型架构可以抄,数据才是真壁垒。
  • 在手机、PC、手表、汽车这些场景上,1B 和 2B 的体验差距,远没有数据质量带来的差距大。

📊 文章信息

AI 初评:86

来源:夕小瑶科技说

作者:夕小瑶科技说

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2824

标签: 端侧模型, 数据治理, MiniCPM, 预训练数据, SFT

阅读完整文章

查看原文 → 發佈: 2026-05-29 13:50:00 收錄: 2026-05-29 22:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。