Anthropic 发布了 Claude Mythos 的 Model Card,其在 SWE-bench 等多项编程与系统评测中表现卓越。
📝 详细摘要
推文关注 Anthropic 新模型 Claude Mythos 的发布。根据官方 Model Card 数据,该模型在软件工程能力测试 SWE-bench Verified 上达到了 93.9% 的极高分数,在 OSWorld 和 Terminal-Bench 等系统级任务中也表现强劲。目前该模型采取负责任的预览模式,优先面向网络安全防御者开放。
📊 文章信息
AI 评分:89
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:1 分钟
字数:188
标签: Claude Mythos, Anthropic, Benchmark, SWE-bench, AI 模型