7B 打败 o3、GPT-5！医学 AI 智能体让模型学会“看哪里、怎么看”

📌 一句话摘要

上海创智学院 LeapQuest 团队联合多所高校提出 Ophiuchus 和 MedScope 两篇 ICML 2026 论文，首次将 Think with Images/Videos 范式应用于医学 AI，让模型在推理过程中主动调用视觉工具寻找证据，而非被动生成解释。

📝 详细摘要

本文介绍了上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学提出的两项 ICML 2026 接收工作：Ophiuchus 和 MedScope。核心创新在于将 Think with Images/Videos 范式引入医学 AI，使多模态模型不再被动接收视觉输入后生成解释，而是在推理链中主动调用视觉工具（如 SAM2 分割、BiomedParse 定位、Zoom-in 放大、crop_video 截取等），重新观察关键区域或关键时刻，并用新证据修正判断。Ophiuchus 面向医学图像，在 8 个 VQA benchmark 上以 7B 参数超越 o3、GPT-5 等闭源模型；MedScope 面向临床长视频，通过 ClinVideoSuite 数据集和 GA-GRPO 强化学习训练，在时序推理任务上达到开源 SOTA。两篇工作共同定义了医学 AI 的新范式：视觉从输入变为思维过程的一部分，模型学会在推理中主动寻找、验证并引用视觉证据。

💡 主要观点

- Ophiuchus 和 MedScope 首次将 Think with Images/Videos 范式系统化应用于医学 AI。 模型不再被动接收视觉输入后生成解释，而是在推理链中主动调用视觉工具（分割、定位、放大、截取等），用新证据修正判断，实现视觉证据驱动的推理。

Ophiuchus-7B 在医学 VQA 上以 7B 参数超越 o3、GPT-5 等闭源模型。 在 8 个 VQA benchmark 上平均分 68.0，高于 OpenAI o3 的 62.2 和 GPT-5 的 59.9，工具调用准确率达 97.9%，证明细粒度视觉交互比模型规模更重要。

MedScope 将 Think with Videos 范式推广到临床长视频场景。 通过 ClinVideoSuite 数据集（635K 时间戳 caption、254K 证据 QA、34K 视觉 CoT 轨迹）和三阶段训练（warm-up、SFT、GA-GRPO），让模型学会在长视频中定位关键时间窗并检索视觉证据。

两篇工作共同定义了医学 AI 的新范式：视觉从输入变为思维过程的一部分。 推理不再是语言 token 的展开，而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互，为临床可信 AI 提供了更少幻觉、更强可解释性、更适合复杂流程的能力。

💬 文章金句

- 视觉不再只是输入，视觉证据本身成了模型思考过程的一部分。

模型不再只是看完图像或视频后生成解释，而是在推理链中主动调用视觉工具，重新观察关键区域或关键时刻，并用新证据修正判断。
医学 AI 的下一个关键能力，不是生成更长的解释，而是在给出解释前主动寻找、验证并引用视觉证据。
推理不只是语言生成，而是围绕证据进行的动态视觉探索。

📊 文章信息

AI 初评：88

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3336

标签：医学 AI, 多模态大模型, 视觉推理, AI Agent, ICML 2026

阅读完整文章

7B 打败 o3、GPT-5！医学 AI 智能体让模型学会“看哪里、怎么看”

🤖 問 AI