智谱 GLM-5.1 发布：开源模型首超 Claude Opus 4.6，解锁 8 小时长程任务能力

📌 一句话摘要

智谱发布开源模型 GLM-5.1，凭借卓越的长程任务能力在 SWE-bench Pro 等榜单超越 Claude Opus 4.6，实现从「对话者」向「执行者」的跨越。

📝 详细摘要

智谱正式发布 GLM-5.1 开源模型，标志着国产开源 AI 在核心工程能力上达到全球顶尖水平。该模型核心突破在于「长程任务（Long Horizon Task）」能力，能够自主进行长达 8 小时的持续工作，完成从规划、执行、纠错到项目交付的全闭环。实测显示，GLM-5.1 在 CUDA Kernel 优化中将加速比从 2.6x 提升至 35.7x，并能自主重构复杂代码及构建系统级桌面环境。在 SWE-bench Pro 基准测试中，其表现超越了 Claude Opus 4.6 和 GPT-5.4，刷新了全球纪录。

💡 主要观点

- GLM-5.1 实现了从「分钟级交互」到「小时级交付」的范式转变。 模型不再仅限于简单的问答，而是能以完整项目为交付单位，在长达 8 小时的任务中保持目标一致性，自主完成编译、测试与重写。

在硬核工程领域展现出专家级直觉与自主决策能力。 在 CUDA 优化实测中，模型能自主判断并放弃高层框架，转向底层 C++ 重写，将原本需数月的专家任务缩短至 14 小时。

刷新 SWE-bench Pro 纪录，核心工程指标反超顶级闭源模型。 GLM-5.1 在软件工程能力测试中超越了 Claude Opus 4.6 和 GPT-5.4，证明了开源模型在处理复杂真实代码库任务上的优越性。

💬 文章金句

- AI 在这个过程中还展现出了专家级的直觉。

GLM-5.1 的交付单位就不同了——一个完整的项目。
2023-2024 年的 AI，是只会对话的「talker」，而 2026-2027 年的 AI，将成为能真正落地做事的「doer」。
它能在单次任务中，持续、自主地工作长达 8 小时，过程中自主规划、自主执行、自主测试。

📊 文章信息

AI 评分：89

来源：量子位

作者：十三

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3715

标签：智谱AI, GLM-5.1, 开源模型, 长程任务, CUDA优化

阅读完整文章

智谱 GLM-5.1 发布：开源模型首超 Claude Opus 4.6，解锁 8 小时长程任务能力

🤖 問 AI