Anthropic 发布 BioMysteryBench 生物信息学评测集,Claude 模型在人类可解题上追平专家,在人类难题上以 29.6% 的准确率首次超越人类,并展现出模式识别和多方法收敛等独特解题策略。
📝 详细摘要
本文详细解读了 Anthropic 最新发布的 BioMysteryBench 生物信息学评测集及其评估结果。该评测集旨在解决生物学科研评估的三大难点:问题解法多样、研究决策主观、以及大量问题人类自身也无法解答。评测集包含 99 道题目,其中 76 道被人类专家视为可解,23 道为人类难题。结果显示,Claude Opus 4.6 及后续模型在人类可解题上已追平甚至超越专家平均水平(Mythos 达 82.6%)。更引人注目的是,在人类专家全部答错的 23 道难题上,Claude Mythos 取得了 29.6% 的准确率。文章深入分析了 Claude 的两种主要解题策略:一是直接调用内部知识库,整合跨论文和数据库的信息;二是在不确定时采用多方法收敛策略,选择多种解法指向同一答案的路径。此外,文章还讨论了模型解题的稳定性问题,指出在人类难题上,模型的部分成功依赖于「脆弱路径」。最后,文章提及 Genentech 和 Roche 联合发布的 CompBioBench 得出了相似的结论,共同印证了前沿 AI 模型在生物信息学领域的实用价值。
💡 主要观点
- Anthropic 发布 BioMysteryBench,旨在客观评估 AI 在生物信息学领域的真实能力。 该评测集通过设计具有客观答案的题目,并引入人类专家基线,解决了生物学科研评估中解法多样、决策主观和答案未知的三大难题。
💬 文章金句
- 人类能搞定的,Claude 也能搞定;在人类搞不定的,Mythos 也能搞定
- 而恰恰是这类「人类还没解开」的问题,最值得测 AI 能不能解
- Claude 走了完全不同的路...人类专家用算法或数据库去注释样本属性,Claude 直接看一眼数据,靠模式识别认出来这是什么序列
- Opus 4.6 在不确定的题上会同时跑多种解法,最后选多种方法都指向同一个答案的那个
- 两个独立 benchmark,结论指向同一件事:前沿模型在生信任务上已经从「能用」过渡到「真的有用」
📊 文章信息
AI 初评:87
来源:赛博禅心
作者:赛博禅心
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2929
标签: Claude, Anthropic, BioMysteryBench, 生物信息学, AI 评测