36.4 万超声图文对！中国团队构建首个大规模超声专属数据集，让 AI 真正读懂临床诊断语义

📌 一句话摘要

中国多机构联合团队构建了首个大规模、100% 专用于超声影像的图文数据集 US-365K，并提出了语义感知对比学习框架 Ultrasound-CLIP，旨在解决超声 AI 领域的数据稀缺和语义对齐难题，相关成果被 CVPR 2026 接收。

📝 详细摘要

本文介绍了一项由浙大城市学院、浙江大学、香港城市大学等多家机构联合完成的 AI 医疗研究成果。针对超声影像 AI 研究中面临的数据稀缺（现有医疗跨模态数据集中超声样本占比不足 5%）、诊断报告语义模糊以及缺乏临床结构先验知识三大核心瓶颈，研究团队从标准化数据构建和定制化模型设计两个维度进行了突破。首先，团队建立了标准化的超声诊断分类体系（UDT），并基于此从多个权威数据库收集、处理并标注了包含 36.4 万对图像-文本样本的 US-365K 数据集，填补了行业空白。其次，团队提出了 Ultrasound-CLIP 框架，创新性地引入了 UDAF 引导的异质图编码器来建模诊断属性间的结构化关联，并利用基于 UDAF 的语义软标签和双目标优化策略，实现了对超声临床诊断语义的细粒度理解。实验表明，该模型在多任务分类、图文检索及下游泛化任务上均优于现有基线。相关代码和数据集已开源。

💡 主要观点

- 构建了首个大规模、标准化的超声专属图文数据集 US-365K。 该数据集包含 36.4 万对样本，覆盖全解剖区域，数据有效率超 90%，解决了超声 AI 研究长期面临的数据稀缺和标注不统一的核心瓶颈，为领域发展提供了高质量的数据基础。

提出了创新的 Ultrasound-CLIP 语义感知对比学习框架。 框架通过引入 UDAF 异质图编码器建模诊断属性间的结构化关联，并利用语义软标签和双目标优化策略，使模型能够理解超声诊断报告中的专业语义和临床推理逻辑，超越了简单的关键词匹配。

研究成果具有高度的实用性和开源价值。 模型在多项任务上验证了其优越性能，并且团队已将完整的代码、模型和 US-365K 数据集开源，为后续研究者和临床 AI 应用开发提供了可直接复用的宝贵资源。

💬 文章金句

- US-365K 是首个大规模、100% 专用于超声影像的数据集。

超声诊断报告的表述多样，相同病变存在不同描述方式，传统对比学习难以精准界定正负样本，易产生语义偏差。
Ultrasound-CLIP 让模型真正理解超声的临床诊断语义。
该数据集包含 36.4 万对超声图像-文本样本、11676 个临床真实病例，覆盖全解剖区域，是业内首个 100% 专属超声的大规模图文数据集。
通过双目标联合优化，模型既能实现超声图像与文本的精准跨模态对齐，又能精准捕捉超声诊断的细粒度语义特征。

📊 文章信息

AI 初评：89

来源：量子位

作者：西风

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3016

标签：医疗AI, 超声影像, 多模态大模型, 数据集, CVPR

阅读完整文章

36.4 万超声图文对！中国团队构建首个大规模超声专属数据集，让 AI 真正读懂临床诊断语义

🤖 問 AI