上海创智学院 LeapQuest 团队联合多所高校提出 Ophiuchus 和 MedScope 两篇 ICML 2026 论文,首次将 Think with Images/Videos 范式应用于医学 AI,让模型在推理过程中主动调用视觉工具寻找证据,而非被动生成解释。
📝 详细摘要
本文介绍了上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学提出的两项 ICML 2026 接收工作:Ophiuchus 和 MedScope。核心创新在于将 Think with Images/Videos 范式引入医学 AI,使多模态模型不再被动接收视觉输入后生成解释,而是在推理链中主动调用视觉工具(如 SAM2 分割、BiomedParse 定位、Zoom-in 放大、crop_video 截取等),重新观察关键区域或关键时刻,并用新证据修正判断。Ophiuchus 面向医学图像,在 8 个 VQA benchmark 上以 7B 参数超越 o3、GPT-5 等闭源模型;MedScope 面向临床长视频,通过 ClinVideoSuite 数据集和 GA-GRPO 强化学习训练,在时序推理任务上达到开源 SOTA。两篇工作共同定义了医学 AI 的新范式:视觉从输入变为思维过程的一部分,模型学会在推理中主动寻找、验证并引用视觉证据。
💡 主要观点
- Ophiuchus 和 MedScope 首次将 Think with Images/Videos 范式系统化应用于医学 AI。 模型不再被动接收视觉输入后生成解释,而是在推理链中主动调用视觉工具(分割、定位、放大、截取等),用新证据修正判断,实现视觉证据驱动的推理。
💬 文章金句
- 视觉不再只是输入,视觉证据本身成了模型思考过程的一部分。
- 模型不再只是看完图像或视频后生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新证据修正判断。
- 医学 AI 的下一个关键能力,不是生成更长的解释,而是在给出解释前主动寻找、验证并引用视觉证据。
- 推理不只是语言生成,而是围绕证据进行的动态视觉探索。
📊 文章信息
AI 初评:88
来源:量子位
作者:听雨
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3336
标签: 医学 AI, 多模态大模型, 视觉推理, AI Agent, ICML 2026