智谱公布“降智”的秘密：Scaling 不可避免的痛

📌 一句话摘要

智谱公开了 GLM-5 系列模型在 Scaling 过程中因高负载推理状态管理缺陷导致的乱码、复读等异常问题，并分享了定位、修复及优化的实战经验。

📝 详细摘要

本文是智谱团队发布的一篇技术博客，坦诚分享了 GLM-5 模型在 Scaling 过程中遭遇的「Scaling Pain」。文章指出，在服务高并发 Coding Agent 任务时，模型出现了乱码、重复生成和生僻字等异常，且这些异常在标准测试环境中无法复现。经过数周排查，团队将问题定位到推理基础设施的底层，具体包括 PD 分离架构下的 KV Cache 竞态问题和 HiCache 加载时序缺失。针对这些 Bug，团队引入了显式同步机制和重构了读取流程，成功将异常发生率从万分之十几降至万分之三以下。此外，文章还介绍了为缓解 Prefill 阶段压力而设计的 KV Cache 分层存储方案 LayerSplit，该方案在长上下文场景下能显著提升系统吞吐量。文章不仅是一次问题复盘，更是一份极具实操性的避坑指南，强调了在 AI 规模化部署中系统工程的重要性。

💡 主要观点

- 高负载下的推理状态管理缺陷是导致模型输出异常的根本原因。 GLM-5 在服务高并发 Coding Agent 时出现乱码、复读等异常，问题根源在于 PD 分离架构下的 KV Cache 竞态和 HiCache 加载时序缺失，而非模型本身。

投机采样指标可作为在线异常检测的有效参考。 团队发现，乱码和生僻字对应的 spec_accept_length 极低，而复读则异常高，基于此建立了在线监控策略，当指标异常时主动中止并重试请求。

引入显式同步机制是解决 KV Cache 复用冲突的关键。 通过在解码阶段和预填充阶段之间建立显式同步，确保 KV Cache 写入操作在内存复用前完成，从而彻底消除了跨请求的 KV Cache 损坏问题。

LayerSplit 分层存储方案能有效缓解长上下文场景下的 Prefill 瓶颈。 通过将 KV Cache 按层分布到不同 GPU，并设计通信与计算重叠机制，LayerSplit 在长上下文场景下可将系统吞吐量提升 10% 到 132%。

💬 文章金句

- 我们的推理基础设施正承受着前所未有的压力，每天都要服务数亿次 Coding Agent 调用。

这些问题在标准推理环境中压根复现不出来！！！
未来大规模 AI 需要的不仅是 Scaling Law 推动的能力增长，还必须有等量级的系统工程支撑。

📊 文章信息

AI 初评：88

来源：量子位

作者：鹭羽

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2374

标签： Scaling, GLM-5, 推理优化, KV Cache, PD分离

阅读完整文章

智谱公布“降智”的秘密：Scaling 不可避免的痛

🤖 問 AI