← 回總覽

智谱 GLM-5.1 发布:超越 Claude Opus 4.6,国产开源模型登顶 SWE-bench Pro

📅 2026-04-09 01:16 李超凡 人工智能 1 分鐘 1132 字 評分: 89
GLM-5.1 智谱AI 开源模型 SWE-bench AI编程
📌 一句话摘要 智谱 AI 发布开源模型 GLM-5.1,在 SWE-bench Pro 榜单超越 Claude Opus 4.6 夺得开源第一,并实现 8 小时连续自主编程突破。 📝 详细摘要 本文详细介绍了智谱 AI 最新发布的开源大模型 GLM-5.1。该模型拥有 744B 参数(MoE 架构),在软件工程基准测试 SWE-bench Pro 上以 58.4% 的得分超越了 Claude Opus 4.6 和 GPT-5.4,位列全球第三、开源第一。GLM-5.1 的核心突破在于其长程任务执行能力,可连续工作 8 小时并执行超过 1700 个步骤,实现从零构建 Linux 桌面系统及

📌 一句话摘要

智谱 AI 发布开源模型 GLM-5.1,在 SWE-bench Pro 榜单超越 Claude Opus 4.6 夺得开源第一,并实现 8 小时连续自主编程突破。

📝 详细摘要

本文详细介绍了智谱 AI 最新发布的开源大模型 GLM-5.1。该模型拥有 744B 参数(MoE 架构),在软件工程基准测试 SWE-bench Pro 上以 58.4% 的得分超越了 Claude Opus 4.6 和 GPT-5.4,位列全球第三、开源第一。GLM-5.1 的核心突破在于其长程任务执行能力,可连续工作 8 小时并执行超过 1700 个步骤,实现从零构建 Linux 桌面系统及深度内核优化。此外,该模型完全基于华为昇腾芯片训练,证明了国产算力在顶级模型研发中的可行性,且其部署成本较 Claude Opus 降低了 97%。

💡 主要观点

- GLM-5.1 在软件工程能力上实现跨越,登顶开源模型榜首。 通过在 SWE-bench Pro 上的表现,证明其能处理真实 GitHub 仓库中的高难度 Bug,能力超越多数人类程序员。

实现从「单步指令」到「长程自主工作」的范式转变。 模型支持长达 8 小时的连续迭代,能自主进行策略切换和「打破-修复」循环,完成复杂的内核优化和系统构建任务。
国产算力链条的闭环验证与极高的性价比。 全程使用华为昇腾 910B 训练,且在实际应用中将推理成本降低至 Claude Opus 的 3%,具有极强的商用竞争力。

💬 文章金句

- 去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

  • GLM-5.1 大幅扩展了编程的适应范围,不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。
  • 在算力被卡脖子的情况下,国产模型依然能做到全球第三、开源第一。

📊 文章信息

AI 评分:89

来源:爱范儿

作者:李超凡

分类:人工智能

语言:中文

阅读时间:10 分钟

字数:2256

标签: GLM-5.1, 智谱AI, 开源模型, SWE-bench, AI编程

阅读完整文章

查看原文 → 發佈: 2026-04-09 01:16:23 收錄: 2026-04-08 18:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。