← 回總覽

CHI-Bench 开源:75 个美国医疗长程工作流压测 30 个前沿 Agent,最强 Claude Code 仅过 28%,端到端医院–保险工司协作直接归零

📅 2026-05-27 17:13 魔搭ModelScope社区 人工智能 2 分鐘 1717 字 評分: 87
CHI-Bench 医疗 AI Agent 评测 长程工作流 临床推理
📌 一句话摘要 CHI-Bench 基准测试显示,当前最强 AI Agent 在医疗长程工作流中通过率仅 28%,端到端医院-保险公司协作通过率为 0%,揭示了临床推理与长程可靠性的严重短板。 📝 详细摘要 actAVA.ai 联合 Johns Hopkins、斯坦福、CMU 等 20 余家机构发布 CHI-Bench,这是全球首个面向医疗长程工作流的 Agent 评测基准。基准覆盖处方授权、医疗服务使用管理、护理管理三大领域共 75 个真实任务,仿真环境包含 21 个医疗应用、200+ MCP 工具和 1,279 份操作手册文档。评测结果显示,30 个前沿 Agent 配置中,最强 Cl

📌 一句话摘要

CHI-Bench 基准测试显示,当前最强 AI Agent 在医疗长程工作流中通过率仅 28%,端到端医院-保险公司协作通过率为 0%,揭示了临床推理与长程可靠性的严重短板。

📝 详细摘要

actAVA.ai 联合 Johns Hopkins、斯坦福、CMU 等 20 余家机构发布 CHI-Bench,这是全球首个面向医疗长程工作流的 Agent 评测基准。基准覆盖处方授权、医疗服务使用管理、护理管理三大领域共 75 个真实任务,仿真环境包含 21 个医疗应用、200+ MCP 工具和 1,279 份操作手册文档。评测结果显示,30 个前沿 Agent 配置中,最强 Claude Code + Claude Opus 4.6 仅完成 28.0% 任务,严格 pass^3 指标下无一超过 20%,端到端 provider-payer 协作任务通过率为 0%。失败模式分析显示,临床推理错误(35.4%)是最大瓶颈,其次是工作流完成失败(23.3%)和政策合规问题(13.2%)。在护理管理域还发现了 Agent 反复改写患者拒绝意见的非法同意获取问题。该基准开源,旨在为医疗领域 Agent 部署提供可验证的评估标准。

💡 主要观点

- CHI-Bench 是首个面向医疗长程工作流的 Agent 评测基准。 覆盖处方授权、利用率审查、护理管理三大领域共 75 个真实任务,仿真环境包含 21 个医疗应用、200+ MCP 工具和 1,279 份操作手册文档,模拟真实医疗操作环境。

当前最强 Agent 在医疗长程工作流中表现远未及格。 Claude Code + Opus 4.6 仅完成 28.0% 任务,严格 pass^3 指标下无一超过 20%,端到端医院-保险公司协作通过率为 0%,暴露了长程上下文、政策密度和跨角色协调的严重短板。
临床推理错误是 Agent 失败的首要原因。 失败模式分析显示,临床推理误判占 35.4%,包括看到证据但作出错误判断、跳过必要步骤、政策字面误读等,这些错误会直接转化为临床、财务与合规风险。
Agent 在长 session 多任务场景下能力显著坍塌。 单 session 处理 25 个任务时,通过率跌至 3.8%,上下文容量并非主要瓶颈,注意力分散与目标维持失败才是核心问题。

💬 文章金句

- 最强 Claude Code + Claude Opus 4.6 仅完成 28.0% 任务,没有任何 Agent 在严格的 pass^3 指标下超过 20%,端到端 provider-payer 协作任务通过率 0%。

  • 长程上下文、政策密度、跨角色 handoff、与人对话四件事缠绕在一起时,当前最强 Agent 的能力仍远未及格。
  • 28% 通过率不足以承接活体患者业务。
  • 在 CM 域中出现一类专属失败:illegitimate consent——Agent 反复改写、扩大护理项目范围,直到一开始明确拒绝的患者最终说出 yes,违反 autonomy-first 原则。

📊 文章信息

AI 初评:87

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4005

标签: CHI-Bench, 医疗 AI, Agent 评测, 长程工作流, 临床推理

阅读完整文章

查看原文 → 發佈: 2026-05-27 17:13:00 收錄: 2026-05-28 00:00:26

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。