刚刚， GLM-5.1 高速版来了，真的太快快快快快了。

📌 一句话摘要

本文测评了智谱最新发布的 GLM-5.1-HighSpeed 高速版模型，其以每秒 400 token 的速度在保持旗舰模型智能水平的同时大幅提升推理效率，并深入解析了背后的 TileRT 推理引擎技术。

📝 详细摘要

文章围绕智谱最新发布的 GLM-5.1-HighSpeed 模型展开，作者通过 Claude Code 集成实测，展示了该模型在速度上的显著优势：相比 GLM-5.1 快 5-6 倍，相比 Claude Opus 4.7 快 4 倍以上。在生成网页、处理办公文档等场景中，高速版不仅速度快，交付质量甚至优于原版。文章核心亮点在于对 TileRT 推理引擎的技术解析：该引擎抛弃传统 operator/kernel 调度方式，在编译期将计算图静态编排为常驻 GPU 的 persistent Engine Kernel，将调度单元从 operator/kernel 降维到 tile 级别，从而突破 GPU 算力瓶颈，实现接近硬件上限的推理速度。文章还讨论了高速推理对 AI 产品体验的深远影响，特别是语音 Agent 等实时交互场景。

💡 主要观点

- GLM-5.1-HighSpeed 实现每秒 400 token 的推理速度，是原版的 5-6 倍。 在 Claude Code 实测中，相同任务 GLM-5.1 需 31 秒，高速版仅 11 秒，且交付质量经 Claude Opus 4.7 评判优于原版，打破了「小模型才快」的行业惯例。

TileRT 推理引擎通过编译期静态编排计算图，将调度单元从 operator/kernel 降维到 tile 级别。 传统推理框架以 operator/kernel 为调度单元，在多卡小 batch 场景下调度开销被急剧放大。TileRT 在编译期将整个计算图编排为 persistent Engine Kernel，单卡内计算、IO 与通信拆解为 tile 级微任务，仅 launch 一次，中间结果通过寄存器、共享内存直传，大幅减少访存开销。

高速推理对语音 Agent 等实时交互产品的用户体验有质的提升。 以作者开源的语音 Agent Lumi 为例，若模型推理速度慢，任务完成后语音反馈可能延迟数分钟，造成体验割裂。高速推理配合高效 Agent 链路，能让实时交互变得自然流畅。

💬 文章金句

- GLM-5.1 高速版打破行业惯例，之前大家的认知一般是尺寸小的模型才能快。小模型的问题就是会降智。但是 GLM-5.1 高速版背后是智谱旗舰模型 GLM-5.1，这是国产大模型第一次同时拿到顶级的智商和极致的速度。

GPU 不是没有算力，而是算力被困在了 kernel 边界之间。operator/kernel 这一执行抽象，本身已经成为阻碍推理逼近硬件上限的结构性瓶颈。
TileRT 的做法是彻底抛弃 Runtime 层的动态调度，在编译期把整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。

📊 文章信息

AI 初评：86

来源：逛逛GitHub

作者：逛逛GitHub

分类：人工智能

语言：中文

阅读时间：9 分钟

字数：2059

标签： GLM-5.1, 智谱, 大语言模型, 推理加速, TileRT

阅读完整文章

刚刚， GLM-5.1 高速版来了，真的太快快快快快了。

🤖 問 AI