本文系统综述了工业级 LLM 预训练数据工程的关键实践,涵盖语料库构建、数据利用与评估方法,并提炼了经大规模训练验证的技术共识与最佳实践。
📝 详细摘要
本文是一篇关于 LLM 预训练数据工程的深度综述,作者李煜东基于 2020 至 2026 年间发布的 GPT、LLaMA、Qwen、DeepSeek、Kimi、GLM、OLMo、Phi 等系列模型的技术报告,系统梳理了预训练数据工程的核心流程与最佳实践。文章首先指出高质量文本数据面临供给瓶颈,预训练研究的重心正从扩大规模转向提升数据利用效率。随后,文章详细介绍了语料库构建的三个核心步骤:去重(精确匹配与模糊匹配)、质量过滤(启发式规则与分类器)和合成数据增强。在数据利用方面,文章深入探讨了数据选择与配比(从静态配比到 scaling law 引导的优化)、多阶段训练(通用预训练、mid-training、退火)以及长上下文训练的策略。最后,文章讨论了预训练评估的挑战,指出当前 benchmark 作为代理指标的局限性,并呼吁社区加强数据工程的开放性与可复现性。文章结构严谨,论据充分,为预训练研究者提供了清晰的技术路线图。
💡 主要观点
- 预训练数据工程正从单纯扩大规模转向更高效地利用数据。 高质量文本数据面临供给瓶颈,RefinedWeb、FineWeb-Edu 等实验证明,在相同计算预算下,更优的数据处理可带来数倍等效数据量的性能提升,数据效率成为核心优化目标。
💬 文章金句
- 预训练研究的重心因此正从单纯扩大数据规模,转向更高效地利用数据。
- 规模和效率并非替代关系,而是共同决定模型能力的两个维度。
- 透明度的下降说明数据工程已成为预训练的核心竞争环节。
- 预训练正在变得更加精细。数据不再只是训练开始前准备好的静态语料库,而是贯穿模型训练全过程的可调变量。
- 许多经过规模验证的做法仍然遵循「大道至简」的原则。
📊 文章信息
AI 初评:88
来源:AINLP
作者:AINLP
分类:人工智能
语言:中文
阅读时间:57 分钟
字数:14187
标签: LLM, 预训练, 数据工程, 数据质量, 合成数据