AI Infra 入门干货总结：大模型是如何高效推理的

📌 一句话摘要

本文基于对 vLLM 源码的深入阅读，以 Llama 3 为例，通过追踪推理过程中每一步的张量维度变化，系统性地讲解了大模型从 Tokenize 到 Sampling 的完整高效推理流程。

📝 详细摘要

本文是作者花费两个月业余时间深入阅读 vLLM 源码后的总结。文章聚焦于 Decoder-Only 架构的 LLM，以 Llama 3 为例，详细拆解了从 Tokenize、Embedding Lookup、Transformer Block（Attention 与 FFN）到 LM Head 和 Sampling 的完整推理流程。核心亮点在于，作者在每个计算环节都标注了 Tensor 的维度变化，并深入解释了 Continuous Batching 和 Paged Attention 这两个关键技术如何提升推理效率。文章还探讨了 Prefill 和 Decode 阶段在计算与访存上的本质差异，以及 FlashAttention 如何通过 Online Softmax 打破内存墙。最后，文章总结了 MLP 层是计算大头、Attention 层是访存大头的结论，并附带了模型配置参数和运行时变量表，为 AI Infra 从业者提供了扎实的入门参考。

💡 主要观点

- Continuous Batching 将调度粒度从请求级下沉到 Token 级，显著提升 GPU 利用率。 通过 Token 级别的调度，多个请求可以复用模型权重，将 QKV_Proj、O_Proj、MLP 等操作从矩阵-向量乘法（GEMV）变回矩阵乘法（GEMM），从而摊薄读取权重的显存开销。

Paged Attention 通过虚拟页表机制管理 KV Cache，解决了显存碎片问题。 类似操作系统的虚拟内存，Paged Attention 为每个请求分配非连续的物理块，并通过 block_table 进行间接寻址，极大地提升了 GPU 显存利用率，是支撑 Continuous Batching 高性能推理的基础。

Prefill 阶段是计算密集型，Decode 阶段是访存密集型。 Prefill 阶段处理大量 Token，计算强度高，受限于 Tensor Cores 算力；Decode 阶段每次只处理一个 Token，需要从 HBM 搬运大量 KV Cache 和模型权重，因此受限于显存带宽。

FlashAttention 通过 Kernel 融合和 Online Softmax 算法打破内存墙。 FlashAttention 将 Q-K 点积、Softmax 和乘 V 融合为一个 CUDA Kernel，并在 SRAM 中分块计算，避免了将庞大的中间矩阵写入 HBM，从而大幅提升了 Attention 计算的性能。

💬 文章金句

- 有没有可能将调度的从 request level 下沉到 token level 呢？恭喜你发明了 continuous batching。

那每个请求的 KV Cache 显存申请是不是应该也是 token level，不要一次申请所有的显存。搞一个地址数组(block table)来维护每个请求的 KV Cache 地址就好？恭喜你发明了 Paged Attention。
相比于因显存碎片导致的 OOM，牺牲少部分的访存带宽换取整个系统吞吐量（Throughput）的大幅跃升，在 LLM 推理的整体逻辑中是划算的。
不要推翻重来，而是在原有的基础上学习'修正值'（Delta）。它是'Scaling Law'在架构上的物理基础。
单从推理来看，大模型的原理其实真没那么高深莫测，最难的数学公式怕是要数 RoPE 了。但是 AI Infra 的东西真的多～～根本学不完。

📊 文章信息

AI 初评：90

来源：腾讯技术工程

作者：腾讯技术工程

分类：人工智能

语言：中文

阅读时间：43 分钟

字数：10641

标签：大模型推理, vLLM, Continuous Batching, Paged Attention, FlashAttention

阅读完整文章

AI Infra 入门干货总结：大模型是如何高效推理的

🤖 問 AI