别让格式杀死思想：Logics-Parsing V2 定义文档解析新边界

📌 一句话摘要

阿里巴巴发布 Logics-Parsing V2，这是一款基于 Qwen3-VL 的端到端多模态文档解析模型，实现了对复杂版面、公式、乐谱及思维导图等内容的 SOTA 级结构化还原。

📝 详细摘要

文章详细介绍了阿里数据团队开发的 Logics-Parsing V2 模型。该模型旨在解决传统 OCR 难以处理的复杂文档解析难题，如学术论文、财务报表、乐谱和思维导图。相比前代，V2 版本将模型参数优化至 4B（基于 Qwen3-VL），在提升推理速度的同时，扩展了对“Parsing 2.0”场景的支持。技术上，它采用 SFT 与 GRPO 两阶段训练范式，并创新性地引入了基于布局的强化学习机制（RL），通过设计识别、检测、阅读顺序的多维度奖励，显著增强了模型对复杂文档逻辑结构的理解能力。在 OmniDocBench-v1.5 等权威评测中，该模型取得了端到端模型的 SOTA 成绩。

💡 主要观点

- Logics-Parsing V2 实现了从像素到结构化数字资产的端到端转化。 该模型不再依赖传统的 OCR 拼接流程，直接通过多模态大模型输出包含逻辑结构的 HTML 或 Markdown，保留了文档的原始语义。

模型扩展了“Parsing 2.0”场景，支持乐谱、思维导图和代码块解析。 突破了传统文档解析仅限于文字和表格的局限，能够精准识别并还原具有复杂视觉逻辑的符号系统，如化学分子式和五线谱。

采用 SFT + GRPO 两阶段训练并引入布局强化学习机制。 通过强化学习设计识别、检测和阅读顺序的多维度奖励，解决了复杂版面下内容排序和结构理解的痛点，提升了模型的严谨性。

在保持高性能的同时，通过模型优化将参数量降至 4B 以提升效率。 基于 Qwen3-VL-4B 构建，在自建评测集和公开评测集上均达到 SOTA 水平，实现了精度与推理速度的平衡，更利于工程化落地。

💬 文章金句

- 格式本应是思想的容器，而非牢笼。

Logics-Parsing V2 都能穿透像素的屏障，将其转化可编辑、可搜索的结构化数字资产。
创新性地引入基于布局的强化学习机制，设计识别、检测、阅读顺序的多维度奖励机制。
让信息不再只是被“看见”，而是被真正“唤醒”。

📊 文章信息

AI 评分：92

精选文章：是

来源：阿里技术

作者：阿里技术

分类：人工智能

语言：中文

阅读时间：7 分钟

字数：1715

标签：文档解析, 多模态大模型, OCR, Qwen3-VL, 强化学习

阅读完整文章

别让格式杀死思想：Logics-Parsing V2 定义文档解析新边界

🤖 問 AI