智谱发布 GLM-5.1 高速版 API,输出速度达 400 tokens/s,在保留旗舰模型能力的同时实现极致低延迟,并介绍了背后的 TileRT 高性能推理引擎技术。
📝 详细摘要
智谱于 2026 年 5 月 22 日面向部分企业客户发布 GLM-5.1 高速版 API「GLM-5.1-highspeed」,模型输出速度达到 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。该版本首次在国产大模型中将旗舰级能力与极致低延迟同时带入生产环境,打破了「快即小」的行业惯例。文章详细阐述了速度在 Coding 场景中的关键价值,并介绍了背后的 TileRT 高性能推理引擎,其在推理引擎层、调度系统层与基础设施层进行了系统级优化。TileRT 的核心设计思路是抛弃 Runtime 层的动态调度,在编译期将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel,从而大幅降低调度、访存与同步开销。该版本适用于 AI 编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景,已面向智谱 MaaS 平台部分企业客户开放服务。
💡 主要观点
- GLM-5.1 高速版输出速度达 400 tokens/s,刷新全球大模型 API 速度上限。 该版本在保留 GLM-5.1 旗舰能力的基础上,实现了极致低延迟,打破了「快即小」的行业惯例,首次在国产大模型中将高性能与低延迟同时带入生产环境。
💬 文章金句
- GLM-5.1 高速版打破了这一行业惯例,首次在国产大模型中,将旗舰级能力与极致低延迟同时带入生产环境,无需再为响应速度牺牲模型质量。
- TileRT 的设计思路,是彻底抛弃 Runtime 层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。
- 不是快的模型,而是快的旗舰模型。
📊 文章信息
AI 初评:88
来源:智谱
作者:智谱
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1896
标签: GLM-5.1, 智谱, 大模型, 推理引擎, TileRT