中国多机构联合团队构建了首个大规模、100% 专用于超声影像的图文数据集 US-365K,并提出了语义感知对比学习框架 Ultrasound-CLIP,旨在解决超声 AI 领域的数据稀缺和语义对齐难题,相关成果被 CVPR 2026 接收。
📝 详细摘要
本文介绍了一项由浙大城市学院、浙江大学、香港城市大学等多家机构联合完成的 AI 医疗研究成果。针对超声影像 AI 研究中面临的数据稀缺(现有医疗跨模态数据集中超声样本占比不足 5%)、诊断报告语义模糊以及缺乏临床结构先验知识三大核心瓶颈,研究团队从标准化数据构建和定制化模型设计两个维度进行了突破。首先,团队建立了标准化的超声诊断分类体系(UDT),并基于此从多个权威数据库收集、处理并标注了包含 36.4 万对图像-文本样本的 US-365K 数据集,填补了行业空白。其次,团队提出了 Ultrasound-CLIP 框架,创新性地引入了 UDAF 引导的异质图编码器来建模诊断属性间的结构化关联,并利用基于 UDAF 的语义软标签和双目标优化策略,实现了对超声临床诊断语义的细粒度理解。实验表明,该模型在多任务分类、图文检索及下游泛化任务上均优于现有基线。相关代码和数据集已开源。
💡 主要观点
- 构建了首个大规模、标准化的超声专属图文数据集 US-365K。 该数据集包含 36.4 万对样本,覆盖全解剖区域,数据有效率超 90%,解决了超声 AI 研究长期面临的数据稀缺和标注不统一的核心瓶颈,为领域发展提供了高质量的数据基础。
💬 文章金句
- US-365K 是首个大规模、100% 专用于超声影像的数据集。
- 超声诊断报告的表述多样,相同病变存在不同描述方式,传统对比学习难以精准界定正负样本,易产生语义偏差。
- Ultrasound-CLIP 让模型真正理解超声的临床诊断语义。
- 该数据集包含 36.4 万对超声图像-文本样本、11676 个临床真实病例,覆盖全解剖区域,是业内首个 100% 专属超声的大规模图文数据集。
- 通过双目标联合优化,模型既能实现超声图像与文本的精准跨模态对齐,又能精准捕捉超声诊断的细粒度语义特征。
📊 文章信息
AI 初评:89
来源:量子位
作者:西风
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3016
标签: 医疗AI, 超声影像, 多模态大模型, 数据集, CVPR