OmniScience：大规模科学多模态数据集重磅上线

📌 一句话摘要

深势科技联合魔搭社区发布了基于 Uni-Parser 框架构建的大规模科学多模态数据集 OmniScience，包含 150 万组高质量「图-文-上下文」数据，旨在提升 AI 对复杂科学图像的理解能力，推动 AI for Science 发展。

📝 详细摘要

本文介绍了由深势科技与魔搭社区联合发布的大规模科学多模态数据集 OmniScience。该数据集基于深势科技自研的 Uni-Parser 科学文献解析框架构建，包含 150 万组高质量的「图-文-上下文」三元组，数据总量超过 700GB，覆盖物理、化学、生物等 10 个核心科学领域。文章重点阐述了数据集在规模与质量上的双重突破，包括采用顶级期刊来源、基于动态模型路由的 caption 重撰写方法以及多轮质量过滤流程。研究团队通过在 Qwen2.5-VL-3B 等模型上的微调实验验证了数据集的价值，在 MM-MT-Bench 和 MMMU 等评测基准上取得了显著性能提升。该数据集的开源旨在推动 AI 对科学多模态表达和深层逻辑的理解，促进 AI for Science 领域的发展。

💡 主要观点

- OmniScience 是一个旨在解决 AI 理解科学图像瓶颈的大规模、高质量多模态数据集。 该数据集包含 150 万组「图-文-上下文」数据，覆盖 10 个核心科学领域，通过严格的来源筛选和质量控制，专门针对科学文献中复杂的实验图、原理图等图像的理解难题。

数据集通过创新的 caption 重撰写和多轮质量过滤机制，确保了极高的图文语义相关性和数据质量。 团队采用基于动态模型路由的 re-caption 方法，利用前沿多模态大模型生成信息密度更高、语义更准确的图像描述，并将 reranker score 从 0.769 显著提升至 0.956。

实验证明，使用 OmniScience 数据微调模型能有效提升其在科学多模态理解任务上的性能。 在 Qwen2.5-VL-3B 等模型上的微调实验显示，模型在 MM-MT-Bench 和 MMMU 等基准上取得显著增益，且在语言流畅度、准确率、图文一致性等方面优于使用其他数据训练的模型。

💬 文章金句

- 如何让 AI 真正「读懂」科研文献中复杂的科学图像数据，已成为「AI for Science」领域的关键挑战。

OmniScience 数据集不仅在规模上达到了新的高度，在专业覆盖度上也力求极致。
让 caption 在 Qwen3-VL-Reranker-8B 上测试的 reranker score 从 0.769 提升到 0.956，极大提高了图文的深层语义相关性。
希望 OmniScience 数据的开源，让模型不仅能看图说话，更能理解科学多模态表达和推理的深层逻辑。

📊 文章信息

AI 初评：87

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：6 分钟

字数：1256

标签： OmniScience, 多模态数据集, AI for Science, 科学图像理解, Uni-Parser

阅读完整文章

OmniScience：大规模科学多模态数据集重磅上线

🤖 問 AI