#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

📌 一句话摘要

AI 芯片专家 Reiner Pope 以黑板讲座形式，从 roofline 模型出发，深度拆解大模型训练与推理中批次大小、内存墙、稀疏性、并行策略对成本和延迟的决定性影响。

📝 详细摘要

本期播客是一堂硬核的 AI 基础设施实战课。嘉宾 Reiner Pope（Maddox 创始人，前谷歌 TPU 架构师）通过黑板讲座形式，从最基础的 roofline 模型出发，系统性地解释了批次大小对大模型推理延迟与成本的决定性影响。他指出，若不进行批处理，成本可比批处理时高出上千倍。通过数学推导，他揭示了最优批次大小近似为 300 乘以模型稀疏度，这一常数在不同 GPU 代际间保持稳定。节目深入剖析了「内存墙」为何成为上下文长度的真正枷锁，解释了为什么超出 20 万 token 后成本急剧上升。同时，讨论了混合专家模型（MoE）在 GPU 机架上的布局挑战，指出专家并行与机架内全对全通信的高效性，以及跨机架通信瓶颈（慢八倍）对模型扩展规模的根本性限制。此外，还探讨了预训练、强化学习与推理成本之间的平衡问题，通过计算反推前沿模型可能过度训练了约 100 倍。最后，Reiner 还跨界比较了神经网络与密码学的结构相似性，以及可逆网络从密码学中借鉴的创新思路。

💡 主要观点

- 批次大小是决定推理成本与延迟的最关键因素 不做批处理的推理成本可比批处理时高出上千倍。最优批次大小由硬件参数（算力 / 内存带宽）和模型稀疏度共同决定，经验公式约为 300 × 稀疏度，该常数跨越不同 GPU 世代保持稳定。

内存墙是限制上下文长度的真正元凶，且没有完美的解决方案 通过 Roofline 分析显示，当上下文长度超过约 20 万 token 后，KV 缓存的内存带宽需求成为主要瓶颈，导致成本急剧上升。这也是为何长上下文 API 定价需要加价 50% 的根本原因。

混合专家模型的扩展受限于机架内通信拓扑而非算力 专家并行依赖机架内 NVLink 的全对全通信，最高效。一旦跨越机架边界，通信带宽慢约八倍，成为新瓶颈。因此，单个机架的规模和互联密度直接决定了可以部署的混合专家模型的上限。

流水线并行在推理中效用有限，无法有效节省 KV 缓存内存 流水线并行虽能降低权重的内存需求，但因需要保持多个微批次同时进行以填满流水线，导致 KV 缓存占用的内存总量并未减少。在推理中，其主要作用从解决内存容量转向应对过大的模型规模。

通过 API 定价可以反推模型架构的隐藏细节 通过分析每百万 token 的 API 价格，可以估算出每个 token 的 KV 缓存字节数（约 2KB）、注意力头维度，甚至推断缓存是存放在 HBM、DDR 还是机械硬盘中。

💬 文章金句

- 如果你不把很多用户合在一起做批处理，你得到的成本和经济效益可能会比批处理时差上千倍。

我认为这是因为内存墙的问题没有真正的解决方案。
这个硬件参数（算力/内存带宽）在不同 GPU 代际间保持得相当稳定，大约是 300。所以最优批次大小 ≈ 300 × 稀疏度。
最终限制你能力的因素里，活跃参数量受限于计算成本，总参数量则受限于纵向扩展的规模。
有趣的是，实践中最好的并行策略，最终在物理上恰恰类似于模型的实际架构。

📊 文章信息

AI 初评：87

来源：跨国串门儿计划

作者：跨国串门儿计划

分类：人工智能

语言：中文

阅读时间：137 分钟

字数：34054

标签：大模型推理, 批次大小, Roofline 模型, 内存墙, 混合专家模型

收听完整播客

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

🤖 問 AI