← 回總覽

智谱 GLM-5.1 发布:开源模型首超 Claude Opus 4.6,解锁 8 小时长程任务能力

📅 2026-04-08 14:29 十三 人工智能 1 分鐘 1143 字 評分: 89
智谱AI GLM-5.1 开源模型 长程任务 CUDA优化
📌 一句话摘要 智谱发布开源模型 GLM-5.1,凭借卓越的长程任务能力在 SWE-bench Pro 等榜单超越 Claude Opus 4.6,实现从「对话者」向「执行者」的跨越。 📝 详细摘要 智谱正式发布 GLM-5.1 开源模型,标志着国产开源 AI 在核心工程能力上达到全球顶尖水平。该模型核心突破在于「长程任务(Long Horizon Task)」能力,能够自主进行长达 8 小时的持续工作,完成从规划、执行、纠错到项目交付的全闭环。实测显示,GLM-5.1 在 CUDA Kernel 优化中将加速比从 2.6x 提升至 35.7x,并能自主重构复杂代码及构建系统级桌面环境。在

📌 一句话摘要

智谱发布开源模型 GLM-5.1,凭借卓越的长程任务能力在 SWE-bench Pro 等榜单超越 Claude Opus 4.6,实现从「对话者」向「执行者」的跨越。

📝 详细摘要

智谱正式发布 GLM-5.1 开源模型,标志着国产开源 AI 在核心工程能力上达到全球顶尖水平。该模型核心突破在于「长程任务(Long Horizon Task)」能力,能够自主进行长达 8 小时的持续工作,完成从规划、执行、纠错到项目交付的全闭环。实测显示,GLM-5.1 在 CUDA Kernel 优化中将加速比从 2.6x 提升至 35.7x,并能自主重构复杂代码及构建系统级桌面环境。在 SWE-bench Pro 基准测试中,其表现超越了 Claude Opus 4.6 和 GPT-5.4,刷新了全球纪录。

💡 主要观点

- GLM-5.1 实现了从「分钟级交互」到「小时级交付」的范式转变。 模型不再仅限于简单的问答,而是能以完整项目为交付单位,在长达 8 小时的任务中保持目标一致性,自主完成编译、测试与重写。

在硬核工程领域展现出专家级直觉与自主决策能力。 在 CUDA 优化实测中,模型能自主判断并放弃高层框架,转向底层 C++ 重写,将原本需数月的专家任务缩短至 14 小时。
刷新 SWE-bench Pro 纪录,核心工程指标反超顶级闭源模型。 GLM-5.1 在软件工程能力测试中超越了 Claude Opus 4.6 和 GPT-5.4,证明了开源模型在处理复杂真实代码库任务上的优越性。

💬 文章金句

- AI 在这个过程中还展现出了专家级的直觉。

  • GLM-5.1 的交付单位就不同了——一个完整的项目。
  • 2023-2024 年的 AI,是只会对话的「talker」,而 2026-2027 年的 AI,将成为能真正落地做事的「doer」。
  • 它能在单次任务中,持续、自主地工作长达 8 小时,过程中自主规划、自主执行、自主测试。

📊 文章信息

AI 评分:89

来源:量子位

作者:十三

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3715

标签: 智谱AI, GLM-5.1, 开源模型, 长程任务, CUDA优化

阅读完整文章

查看原文 → 發佈: 2026-04-08 14:29:23 收錄: 2026-04-08 16:00:43

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。