智谱 GLM-5.1 发布：超越 Claude Opus 4.6，国产开源模型登顶 SWE-bench Pro

📌 一句话摘要

智谱 AI 发布开源模型 GLM-5.1，在 SWE-bench Pro 榜单超越 Claude Opus 4.6 夺得开源第一，并实现 8 小时连续自主编程突破。

📝 详细摘要

本文详细介绍了智谱 AI 最新发布的开源大模型 GLM-5.1。该模型拥有 744B 参数（MoE 架构），在软件工程基准测试 SWE-bench Pro 上以 58.4% 的得分超越了 Claude Opus 4.6 和 GPT-5.4，位列全球第三、开源第一。GLM-5.1 的核心突破在于其长程任务执行能力，可连续工作 8 小时并执行超过 1700 个步骤，实现从零构建 Linux 桌面系统及深度内核优化。此外，该模型完全基于华为昇腾芯片训练，证明了国产算力在顶级模型研发中的可行性，且其部署成本较 Claude Opus 降低了 97%。

💡 主要观点

- GLM-5.1 在软件工程能力上实现跨越，登顶开源模型榜首。 通过在 SWE-bench Pro 上的表现，证明其能处理真实 GitHub 仓库中的高难度 Bug，能力超越多数人类程序员。

实现从「单步指令」到「长程自主工作」的范式转变。 模型支持长达 8 小时的连续迭代，能自主进行策略切换和「打破-修复」循环，完成复杂的内核优化和系统构建任务。

国产算力链条的闭环验证与极高的性价比。 全程使用华为昇腾 910B 训练，且在实际应用中将推理成本降低至 Claude Opus 的 3%，具有极强的商用竞争力。

💬 文章金句

- 去年年底，AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

GLM-5.1 大幅扩展了编程的适应范围，不再是前端 only 战神，也不只是 oneshot 样子货，是可以在复杂工况下充当编程主力。
在算力被卡脖子的情况下，国产模型依然能做到全球第三、开源第一。

📊 文章信息

AI 评分：89

来源：爱范儿

作者：李超凡

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2256

标签： GLM-5.1, 智谱AI, 开源模型, SWE-bench, AI编程

阅读完整文章

智谱 GLM-5.1 发布：超越 Claude Opus 4.6，国产开源模型登顶 SWE-bench Pro

🤖 問 AI