工业级 LLM 预训练数据工程的关键实践！

📌 一句话摘要

本文系统综述了工业级 LLM 预训练数据工程的关键实践，涵盖语料库构建、数据利用与评估方法，并提炼了经大规模训练验证的技术共识与最佳实践。

📝 详细摘要

本文是一篇关于 LLM 预训练数据工程的深度综述，作者李煜东基于 2020 至 2026 年间发布的 GPT、LLaMA、Qwen、DeepSeek、Kimi、GLM、OLMo、Phi 等系列模型的技术报告，系统梳理了预训练数据工程的核心流程与最佳实践。文章首先指出高质量文本数据面临供给瓶颈，预训练研究的重心正从扩大规模转向提升数据利用效率。随后，文章详细介绍了语料库构建的三个核心步骤：去重（精确匹配与模糊匹配）、质量过滤（启发式规则与分类器）和合成数据增强。在数据利用方面，文章深入探讨了数据选择与配比（从静态配比到 scaling law 引导的优化）、多阶段训练（通用预训练、mid-training、退火）以及长上下文训练的策略。最后，文章讨论了预训练评估的挑战，指出当前 benchmark 作为代理指标的局限性，并呼吁社区加强数据工程的开放性与可复现性。文章结构严谨，论据充分，为预训练研究者提供了清晰的技术路线图。

💡 主要观点

- 预训练数据工程正从单纯扩大规模转向更高效地利用数据。 高质量文本数据面临供给瓶颈，RefinedWeb、FineWeb-Edu 等实验证明，在相同计算预算下，更优的数据处理可带来数倍等效数据量的性能提升，数据效率成为核心优化目标。

去重、质量过滤和合成数据增强是语料库构建的三大核心步骤。 去重（如 MinHash/LSH）消除冗余，提升训练效率；质量过滤（启发式规则+分类器）筛选高价值内容；合成数据（如 Phi 系列、Qwen 3）作为自然文本的补充，用于补强特定领域能力。

预训练已演变为包含多阶段训练的精细过程。 前沿模型普遍采用通用预训练、mid-training 和退火（annealing）的多阶段结构，不同阶段切换数据配比以分化训练目标，退火阶段对模型性能提升尤为显著。

当前评估体系存在代理指标失效的风险。 下游 benchmark 得分是代理指标而非因果指标，存在格式敏感性、能力混淆和 scaling 趋势不稳定等问题，亟需更精细、可归因的评估方法。

💬 文章金句

- 预训练研究的重心因此正从单纯扩大数据规模，转向更高效地利用数据。

规模和效率并非替代关系，而是共同决定模型能力的两个维度。
透明度的下降说明数据工程已成为预训练的核心竞争环节。
预训练正在变得更加精细。数据不再只是训练开始前准备好的静态语料库，而是贯穿模型训练全过程的可调变量。
许多经过规模验证的做法仍然遵循「大道至简」的原则。

📊 文章信息

AI 初评：88

来源：AINLP

作者：AINLP

分类：人工智能

语言：中文

阅读时间：57 分钟

字数：14187

标签： LLM, 预训练, 数据工程, 数据质量, 合成数据

阅读完整文章

工业级 LLM 预训练数据工程的关键实践！

🤖 問 AI