「生物信息学」评测，Claude 反超人类专家

📌 一句话摘要

Anthropic 发布 BioMysteryBench 生物信息学评测集，Claude 模型在人类可解题上追平专家，在人类难题上以 29.6% 的准确率首次超越人类，并展现出模式识别和多方法收敛等独特解题策略。

📝 详细摘要

本文详细解读了 Anthropic 最新发布的 BioMysteryBench 生物信息学评测集及其评估结果。该评测集旨在解决生物学科研评估的三大难点：问题解法多样、研究决策主观、以及大量问题人类自身也无法解答。评测集包含 99 道题目，其中 76 道被人类专家视为可解，23 道为人类难题。结果显示，Claude Opus 4.6 及后续模型在人类可解题上已追平甚至超越专家平均水平（Mythos 达 82.6%）。更引人注目的是，在人类专家全部答错的 23 道难题上，Claude Mythos 取得了 29.6% 的准确率。文章深入分析了 Claude 的两种主要解题策略：一是直接调用内部知识库，整合跨论文和数据库的信息；二是在不确定时采用多方法收敛策略，选择多种解法指向同一答案的路径。此外，文章还讨论了模型解题的稳定性问题，指出在人类难题上，模型的部分成功依赖于「脆弱路径」。最后，文章提及 Genentech 和 Roche 联合发布的 CompBioBench 得出了相似的结论，共同印证了前沿 AI 模型在生物信息学领域的实用价值。

💡 主要观点

- Anthropic 发布 BioMysteryBench，旨在客观评估 AI 在生物信息学领域的真实能力。 该评测集通过设计具有客观答案的题目，并引入人类专家基线，解决了生物学科研评估中解法多样、决策主观和答案未知的三大难题。

Claude 模型在人类可解的生物信息学任务上已追平甚至超越人类专家。 在 76 道人类可解题上，Claude Mythos 的平均准确率达到 82.6%，超越了人类专家组的平均表现，证明了其在常规生信分析任务上的强大能力。

在人类专家也束手无策的难题上，Claude 展现出超越人类的解题能力。 在 23 道人类专家全部答错的题目上，Claude Mythos 取得了 29.6% 的准确率，表明 AI 能够发现人类专家无法识别的数据模式或关联。

Claude 的解题策略包括直接调用内部知识和多方法收敛，展现出独特的「研究品味」。 模型能整合预训练知识进行一步到位的分析，或在不确定时并行运行多种解法并选择共识答案，这种策略在解决复杂难题时尤为有效。

模型在难题上的成功部分依赖于「脆弱路径」，解题稳定性是未来需要关注的重点。 在人类难题上，模型多次运行中仅成功 1-2 次的比例显著上升，表明其部分成功可能源于偶然路径，而非稳定的能力。

💬 文章金句

- 人类能搞定的，Claude 也能搞定；在人类搞不定的，Mythos 也能搞定

而恰恰是这类「人类还没解开」的问题，最值得测 AI 能不能解
Claude 走了完全不同的路...人类专家用算法或数据库去注释样本属性，Claude 直接看一眼数据，靠模式识别认出来这是什么序列
Opus 4.6 在不确定的题上会同时跑多种解法，最后选多种方法都指向同一个答案的那个
两个独立 benchmark，结论指向同一件事：前沿模型在生信任务上已经从「能用」过渡到「真的有用」

📊 文章信息

AI 初评：87

来源：赛博禅心

作者：赛博禅心

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2929

标签： Claude, Anthropic, BioMysteryBench, 生物信息学, AI 评测

阅读完整文章

「生物信息学」评测，Claude 反超人类专家

🤖 問 AI