GLM-5.1 高速版：400 tokens/s，顶尖模型跑出最快速度

📌 一句话摘要

智谱发布 GLM-5.1 高速版 API，输出速度达 400 tokens/s，在保留旗舰模型能力的同时实现极致低延迟，并介绍了背后的 TileRT 高性能推理引擎技术。

📝 详细摘要

智谱于 2026 年 5 月 22 日面向部分企业客户发布 GLM-5.1 高速版 API「GLM-5.1-highspeed」，模型输出速度达到 400 tokens/s，刷新当前全球大模型厂商 API 的速度上限。该版本首次在国产大模型中将旗舰级能力与极致低延迟同时带入生产环境，打破了「快即小」的行业惯例。文章详细阐述了速度在 Coding 场景中的关键价值，并介绍了背后的 TileRT 高性能推理引擎，其在推理引擎层、调度系统层与基础设施层进行了系统级优化。TileRT 的核心设计思路是抛弃 Runtime 层的动态调度，在编译期将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel，从而大幅降低调度、访存与同步开销。该版本适用于 AI 编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景，已面向智谱 MaaS 平台部分企业客户开放服务。

💡 主要观点

- GLM-5.1 高速版输出速度达 400 tokens/s，刷新全球大模型 API 速度上限。 该版本在保留 GLM-5.1 旗舰能力的基础上，实现了极致低延迟，打破了「快即小」的行业惯例，首次在国产大模型中将高性能与低延迟同时带入生产环境。

TileRT 推理引擎是速度提升的核心技术。 TileRT 在编译期将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel，抛弃了 Runtime 层的动态调度，通过 Tile 级微任务拆分和寄存器直传，大幅降低了调度、访存与同步开销。

高速模型在 Coding 和实时交互场景中具有显著价值。 Coding Agent 任务需要数十轮模型调用，单轮响应慢几秒就会导致整体耗时大幅增加。高速模型使模型成为实时协作的伙伴，并让此前因延迟无法实现的全新产品形态（如实时 3D 建模）具备落地可能。

💬 文章金句

- GLM-5.1 高速版打破了这一行业惯例，首次在国产大模型中，将旗舰级能力与极致低延迟同时带入生产环境，无需再为响应速度牺牲模型质量。

TileRT 的设计思路，是彻底抛弃 Runtime 层的动态调度，在编译期（AOT）将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。
不是快的模型，而是快的旗舰模型。

📊 文章信息

AI 初评：88

来源：智谱

作者：智谱

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1896

标签： GLM-5.1, 智谱, 大模型, 推理引擎, TileRT

阅读完整文章

GLM-5.1 高速版：400 tokens/s，顶尖模型跑出最快速度

🤖 問 AI