智谱发布开源模型 GLM-5.1,凭借卓越的长程任务能力在 SWE-bench Pro 等榜单超越 Claude Opus 4.6,实现从「对话者」向「执行者」的跨越。
📝 详细摘要
智谱正式发布 GLM-5.1 开源模型,标志着国产开源 AI 在核心工程能力上达到全球顶尖水平。该模型核心突破在于「长程任务(Long Horizon Task)」能力,能够自主进行长达 8 小时的持续工作,完成从规划、执行、纠错到项目交付的全闭环。实测显示,GLM-5.1 在 CUDA Kernel 优化中将加速比从 2.6x 提升至 35.7x,并能自主重构复杂代码及构建系统级桌面环境。在 SWE-bench Pro 基准测试中,其表现超越了 Claude Opus 4.6 和 GPT-5.4,刷新了全球纪录。
💡 主要观点
- GLM-5.1 实现了从「分钟级交互」到「小时级交付」的范式转变。 模型不再仅限于简单的问答,而是能以完整项目为交付单位,在长达 8 小时的任务中保持目标一致性,自主完成编译、测试与重写。
💬 文章金句
- AI 在这个过程中还展现出了专家级的直觉。
- GLM-5.1 的交付单位就不同了——一个完整的项目。
- 2023-2024 年的 AI,是只会对话的「talker」,而 2026-2027 年的 AI,将成为能真正落地做事的「doer」。
- 它能在单次任务中,持续、自主地工作长达 8 小时,过程中自主规划、自主执行、自主测试。
📊 文章信息
AI 评分:89
来源:量子位
作者:十三
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3715
标签: 智谱AI, GLM-5.1, 开源模型, 长程任务, CUDA优化