智谱 AI 发布开源模型 GLM-5.1,在 SWE-bench Pro 榜单超越 Claude Opus 4.6 夺得开源第一,并实现 8 小时连续自主编程突破。
📝 详细摘要
本文详细介绍了智谱 AI 最新发布的开源大模型 GLM-5.1。该模型拥有 744B 参数(MoE 架构),在软件工程基准测试 SWE-bench Pro 上以 58.4% 的得分超越了 Claude Opus 4.6 和 GPT-5.4,位列全球第三、开源第一。GLM-5.1 的核心突破在于其长程任务执行能力,可连续工作 8 小时并执行超过 1700 个步骤,实现从零构建 Linux 桌面系统及深度内核优化。此外,该模型完全基于华为昇腾芯片训练,证明了国产算力在顶级模型研发中的可行性,且其部署成本较 Claude Opus 降低了 97%。
💡 主要观点
- GLM-5.1 在软件工程能力上实现跨越,登顶开源模型榜首。 通过在 SWE-bench Pro 上的表现,证明其能处理真实 GitHub 仓库中的高难度 Bug,能力超越多数人类程序员。
💬 文章金句
- 去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。
- GLM-5.1 大幅扩展了编程的适应范围,不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。
- 在算力被卡脖子的情况下,国产模型依然能做到全球第三、开源第一。
📊 文章信息
AI 评分:89
来源:爱范儿
作者:李超凡
分类:人工智能
语言:中文
阅读时间:10 分钟
字数:2256
标签: GLM-5.1, 智谱AI, 开源模型, SWE-bench, AI编程