← 回總覽

刚刚, GLM-5.1 高速版来了,真的太快快快快快了。

📅 2026-05-22 11:52 逛逛GitHub 人工智能 2 分鐘 1675 字 評分: 86
GLM-5.1 智谱 大语言模型 推理加速 TileRT
📌 一句话摘要 本文测评了智谱最新发布的 GLM-5.1-HighSpeed 高速版模型,其以每秒 400 token 的速度在保持旗舰模型智能水平的同时大幅提升推理效率,并深入解析了背后的 TileRT 推理引擎技术。 📝 详细摘要 文章围绕智谱最新发布的 GLM-5.1-HighSpeed 模型展开,作者通过 Claude Code 集成实测,展示了该模型在速度上的显著优势:相比 GLM-5.1 快 5-6 倍,相比 Claude Opus 4.7 快 4 倍以上。在生成网页、处理办公文档等场景中,高速版不仅速度快,交付质量甚至优于原版。文章核心亮点在于对 TileRT 推理引擎的技术

📌 一句话摘要

本文测评了智谱最新发布的 GLM-5.1-HighSpeed 高速版模型,其以每秒 400 token 的速度在保持旗舰模型智能水平的同时大幅提升推理效率,并深入解析了背后的 TileRT 推理引擎技术。

📝 详细摘要

文章围绕智谱最新发布的 GLM-5.1-HighSpeed 模型展开,作者通过 Claude Code 集成实测,展示了该模型在速度上的显著优势:相比 GLM-5.1 快 5-6 倍,相比 Claude Opus 4.7 快 4 倍以上。在生成网页、处理办公文档等场景中,高速版不仅速度快,交付质量甚至优于原版。文章核心亮点在于对 TileRT 推理引擎的技术解析:该引擎抛弃传统 operator/kernel 调度方式,在编译期将计算图静态编排为常驻 GPU 的 persistent Engine Kernel,将调度单元从 operator/kernel 降维到 tile 级别,从而突破 GPU 算力瓶颈,实现接近硬件上限的推理速度。文章还讨论了高速推理对 AI 产品体验的深远影响,特别是语音 Agent 等实时交互场景。

💡 主要观点

- GLM-5.1-HighSpeed 实现每秒 400 token 的推理速度,是原版的 5-6 倍。 在 Claude Code 实测中,相同任务 GLM-5.1 需 31 秒,高速版仅 11 秒,且交付质量经 Claude Opus 4.7 评判优于原版,打破了「小模型才快」的行业惯例。

TileRT 推理引擎通过编译期静态编排计算图,将调度单元从 operator/kernel 降维到 tile 级别。 传统推理框架以 operator/kernel 为调度单元,在多卡小 batch 场景下调度开销被急剧放大。TileRT 在编译期将整个计算图编排为 persistent Engine Kernel,单卡内计算、IO 与通信拆解为 tile 级微任务,仅 launch 一次,中间结果通过寄存器、共享内存直传,大幅减少访存开销。
高速推理对语音 Agent 等实时交互产品的用户体验有质的提升。 以作者开源的语音 Agent Lumi 为例,若模型推理速度慢,任务完成后语音反馈可能延迟数分钟,造成体验割裂。高速推理配合高效 Agent 链路,能让实时交互变得自然流畅。

💬 文章金句

- GLM-5.1 高速版打破行业惯例,之前大家的认知一般是尺寸小的模型才能快。小模型的问题就是会降智。但是 GLM-5.1 高速版背后是智谱旗舰模型 GLM-5.1,这是国产大模型第一次同时拿到顶级的智商和极致的速度。

  • GPU 不是没有算力,而是算力被困在了 kernel 边界之间。operator/kernel 这一执行抽象,本身已经成为阻碍推理逼近硬件上限的结构性瓶颈。
  • TileRT 的做法是彻底抛弃 Runtime 层的动态调度,在编译期把整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。

📊 文章信息

AI 初评:86

来源:逛逛GitHub

作者: 逛逛GitHub

分类:人工智能

语言:中文

阅读时间:9 分钟

字数:2059

标签: GLM-5.1, 智谱, 大语言模型, 推理加速, TileRT

阅读完整文章

查看原文 → 發佈: 2026-05-22 11:52:00 收錄: 2026-05-22 18:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。