上交 x 创智 x 瑞金联合发布 CX-Mind：胸片诊断进入“可验证推理”时代

📌 一句话摘要

上海交通大学、上海创智学院与瑞金医院联合发布 CX-Mind，这是首个将胸片诊断推进为可验证推理链的多模态大模型，通过交错式推理和过程奖励强化学习，让 AI 的诊断过程可被医生审查和复核。

📝 详细摘要

本文介绍了由上海交通大学、上海创智学院与瑞金医院联合发布的 CX-Mind 多模态大模型。该模型的核心创新在于将胸片诊断从传统的黑箱分类器推进为可验证推理链。它通过交错式推理设计，将医学诊断过程拆解为可解析的 think-answer 单元，每一步都基于影像证据进行观察和推断，使医生能够审查、追问和复核模型的诊断路径。模型在 23 个数据集、70 多万张影像上进行了评测，在视觉理解、报告生成和时空对齐三大能力域平均提升 25.1%。团队还构建了大规模胸片指令数据集 CX-Set，并提出了基于课程学习的可验证过程奖励强化学习算法 CuRL-VPR，确保推理路径的可靠性。在真实世界测试集 Rui-CXR 上，多中心医生主观评估显示其在临床相关性、逻辑连贯性等五个维度均排名第一。文章认为，CX-Mind 标志着医学 AI 从追求诊断准确性转向追求推理可解释性和临床协作能力。

💡 主要观点

- CX-Mind 通过交错式推理将胸片诊断从黑箱分类推进为可验证推理链。 模型将诊断过程拆解为 think-answer 交错单元，每一步都围绕影像证据进行观察和推断，使医生能够审查、追问和复核模型的诊断路径，而非仅接受一个最终答案。

CuRL-VPR 强化学习算法同时约束答案正确性与推理路径质量。 该算法采用课程学习策略，从简单任务逐步过渡到复杂任务，并通过格式奖励、最终结果奖励和过程奖励三重机制，确保模型的中间推理步骤有真实的影像报告证据支撑，防止医学幻觉。

CX-Mind 在三大能力域上取得显著性能提升，尤其在复杂临床任务中优势突出。 在横跨 23 个数据集的评测中，模型在视觉理解、报告生成和时空对齐上平均提升 25.1%。在多病共存诊断等更接近真实临床的复杂任务中，相比基线模型提升高达 63.5%。

真实世界验证表明，CX-Mind 的输出具备临床可审查性。 在瑞金医院构建的真实世界测试集 Rui-CXR 上，多中心医生在临床相关性、逻辑连贯性、证据支持等五个维度的主观评估中，CX-Mind 均获得最高分，证明其输出能被医生信任和复核。

💬 文章金句

- 胸片 AI 进入了一个新阶段：不再只给诊断，开始给推理。

CX-Mind 把医学影像大模型的目标从'给出答案'推进为'给出可审查的答案形成过程'。
可解释性不再是事后附加的说明，而是模型学习诊断能力时必须满足的结构约束。
一个来自错误证据的正确结论仍然不可接受，一段没有报告证据支撑的解释仍然可能是幻觉。
下一代医学 AI 的核心竞争力，不仅是'看得准'，而是'推理得清楚、证据可复核、过程可协作'。

📊 文章信息

AI 初评：88

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4361

标签： CX-Mind, 医学影像, 多模态大模型, 可解释性, 交错式推理

阅读完整文章

上交 x 创智 x 瑞金联合发布 CX-Mind：胸片诊断进入“可验证推理”时代

🤖 問 AI