← 回總覽

7B 打败 o3、GPT-5!医学 AI 智能体让模型学会“看哪里、怎么看”

📅 2026-05-28 16:01 听雨 人工智能 2 分鐘 1754 字 評分: 88
医学 AI 多模态大模型 视觉推理 AI Agent ICML 2026
📌 一句话摘要 上海创智学院 LeapQuest 团队联合多所高校提出 Ophiuchus 和 MedScope 两篇 ICML 2026 论文,首次将 Think with Images/Videos 范式应用于医学 AI,让模型在推理过程中主动调用视觉工具寻找证据,而非被动生成解释。 📝 详细摘要 本文介绍了上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学提出的两项 ICML 2026 接收工作:Ophiuchus 和 MedScope。核心创新在于将 Think with Images/Videos 范式引入医学 AI,使多模态模型不再被动接收视觉输入后生成

📌 一句话摘要

上海创智学院 LeapQuest 团队联合多所高校提出 Ophiuchus 和 MedScope 两篇 ICML 2026 论文,首次将 Think with Images/Videos 范式应用于医学 AI,让模型在推理过程中主动调用视觉工具寻找证据,而非被动生成解释。

📝 详细摘要

本文介绍了上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学提出的两项 ICML 2026 接收工作:Ophiuchus 和 MedScope。核心创新在于将 Think with Images/Videos 范式引入医学 AI,使多模态模型不再被动接收视觉输入后生成解释,而是在推理链中主动调用视觉工具(如 SAM2 分割、BiomedParse 定位、Zoom-in 放大、crop_video 截取等),重新观察关键区域或关键时刻,并用新证据修正判断。Ophiuchus 面向医学图像,在 8 个 VQA benchmark 上以 7B 参数超越 o3、GPT-5 等闭源模型;MedScope 面向临床长视频,通过 ClinVideoSuite 数据集和 GA-GRPO 强化学习训练,在时序推理任务上达到开源 SOTA。两篇工作共同定义了医学 AI 的新范式:视觉从输入变为思维过程的一部分,模型学会在推理中主动寻找、验证并引用视觉证据。

💡 主要观点

- Ophiuchus 和 MedScope 首次将 Think with Images/Videos 范式系统化应用于医学 AI。 模型不再被动接收视觉输入后生成解释,而是在推理链中主动调用视觉工具(分割、定位、放大、截取等),用新证据修正判断,实现视觉证据驱动的推理。

Ophiuchus-7B 在医学 VQA 上以 7B 参数超越 o3、GPT-5 等闭源模型。 在 8 个 VQA benchmark 上平均分 68.0,高于 OpenAI o3 的 62.2 和 GPT-5 的 59.9,工具调用准确率达 97.9%,证明细粒度视觉交互比模型规模更重要。
MedScope 将 Think with Videos 范式推广到临床长视频场景。 通过 ClinVideoSuite 数据集(635K 时间戳 caption、254K 证据 QA、34K 视觉 CoT 轨迹)和三阶段训练(warm-up、SFT、GA-GRPO),让模型学会在长视频中定位关键时间窗并检索视觉证据。
两篇工作共同定义了医学 AI 的新范式:视觉从输入变为思维过程的一部分。 推理不再是语言 token 的展开,而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互,为临床可信 AI 提供了更少幻觉、更强可解释性、更适合复杂流程的能力。

💬 文章金句

- 视觉不再只是输入,视觉证据本身成了模型思考过程的一部分。

  • 模型不再只是看完图像或视频后生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新证据修正判断。
  • 医学 AI 的下一个关键能力,不是生成更长的解释,而是在给出解释前主动寻找、验证并引用视觉证据。
  • 推理不只是语言生成,而是围绕证据进行的动态视觉探索。

📊 文章信息

AI 初评:88

来源:量子位

作者:听雨

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3336

标签: 医学 AI, 多模态大模型, 视觉推理, AI Agent, ICML 2026

阅读完整文章

查看原文 → 發佈: 2026-05-28 16:01:57 收錄: 2026-05-28 18:00:09

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。