跳出 SOTA 内卷，我们发了个“好用至上”的文档解析模型

📌 一句话摘要

本文介绍了阿里云魔搭社区发布的 MinerU2.5-Pro 文档解析模型，其核心创新在于不改变 1.2B 参数架构，而是通过系统性数据工程（大规模数据采集、跨模型一致性验证、难样本精标、三阶段渐进训练）和评测基准优化，实现了性能的显著提升，并倡导从“卷架构”转向“卷数据”和“卷好用”的研发理念。

📝 详细摘要

文章由阿里云魔搭社区发布，详细阐述了其最新文档解析模型 MinerU2.5-Pro 的技术路径与核心理念。文章指出，当前文档解析领域陷入“卷架构、卷参数”的内卷，但研究发现不同模型在复杂表格、密集公式等难样本上失败模式高度一致，表明瓶颈在于共用的训练数据存在系统性短板。因此，MinerU2.5-Pro 选择保持 1.2B 参数架构不变，将所有精力投入数据工程：1）将训练数据从不足 1000 万页扩展至 6550 万页，并采用多样性-难度感知采样；2）设计跨模型一致性验证方法，精准识别难样本；3）通过渲染后验证迭代校正流水线，提升难样本标注质量；4）采用三阶段渐进训练策略。最终在 OmniDocBench v1.6 评测集上综合得分达 95.69，超越包括更大参数模型在内的现有方法。文章强调，模型研发应回归“好用至上”的用户价值，关注复杂文档、长尾场景下的真实表现，而非单纯追求榜单 SOTA。模型权重、代码及论文均已开源。

💡 主要观点

- 文档解析的瓶颈已从模型架构转向训练数据质量与覆盖度。 通过交叉分析发现，不同架构的主流模型在复杂嵌套表格、密集公式等难样本上失败模式高度一致，表明问题根源在于共用的训练数据存在系统性短板，而非单一模型设计不足。

MinerU2.5-Pro 的核心创新在于系统性数据工程，而非模型架构改动。 模型保持 1.2B 参数架构不变，通过大规模数据扩展、跨模型一致性验证识别难样本、渲染后验证迭代校正提升标注质量、以及三阶段渐进训练策略，实现了性能的显著提升。

倡导从“卷 SOTA”转向“卷好用”的研发理念，关注真实场景下的用户价值。 文章批评了过度追求评测榜单排名的内卷现象，强调模型研发应回归解决用户真实痛点，如复杂文档的准确解析、长尾场景的稳定表现，并同步优化评测基准以更公允地反映模型能力。

💬 文章金句

- 既然连不同路线的模型都会在同一个地方摔跤，那问题多半就不只是谁的模型架构设计得更巧，而是大家共用的训练数据，本身存在系统性短板。

MinerU2.5-Pro 这次干的，不是‘换个模型再发一遍’。而是先把数据这口井，重新挖深。
跳出 SOTA 内卷，文档解析这件事，也许该重新回到‘是不是真好用’上来了，能不能让用户使用的过程中觉得‘真的好’，而不是卷在某个评测集上的 SOTA。
榜单会变，SOTA 会换，这都正常。但‘好用’这件事，不该跟着 OCR 的热度一起起落。它应该是一个更硬的标准。

📊 文章信息

AI 初评：88

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3345

标签：文档解析, OCR, 数据工程, MinerU, 模型训练

阅读完整文章

跳出 SOTA 内卷，我们发了个“好用至上”的文档解析模型

🤖 問 AI