← 回總覽

AI Infra 入门干货总结:大模型是如何高效推理的

📅 2026-05-25 17:36 腾讯技术工程 人工智能 2 分鐘 2025 字 評分: 90
大模型推理 vLLM Continuous Batching Paged Attention FlashAttention
📌 一句话摘要 本文基于对 vLLM 源码的深入阅读,以 Llama 3 为例,通过追踪推理过程中每一步的张量维度变化,系统性地讲解了大模型从 Tokenize 到 Sampling 的完整高效推理流程。 📝 详细摘要 本文是作者花费两个月业余时间深入阅读 vLLM 源码后的总结。文章聚焦于 Decoder-Only 架构的 LLM,以 Llama 3 为例,详细拆解了从 Tokenize、Embedding Lookup、Transformer Block(Attention 与 FFN)到 LM Head 和 Sampling 的完整推理流程。核心亮点在于,作者在每个计算环节都标注了

📌 一句话摘要

本文基于对 vLLM 源码的深入阅读,以 Llama 3 为例,通过追踪推理过程中每一步的张量维度变化,系统性地讲解了大模型从 Tokenize 到 Sampling 的完整高效推理流程。

📝 详细摘要

本文是作者花费两个月业余时间深入阅读 vLLM 源码后的总结。文章聚焦于 Decoder-Only 架构的 LLM,以 Llama 3 为例,详细拆解了从 Tokenize、Embedding Lookup、Transformer Block(Attention 与 FFN)到 LM Head 和 Sampling 的完整推理流程。核心亮点在于,作者在每个计算环节都标注了 Tensor 的维度变化,并深入解释了 Continuous Batching 和 Paged Attention 这两个关键技术如何提升推理效率。文章还探讨了 Prefill 和 Decode 阶段在计算与访存上的本质差异,以及 FlashAttention 如何通过 Online Softmax 打破内存墙。最后,文章总结了 MLP 层是计算大头、Attention 层是访存大头的结论,并附带了模型配置参数和运行时变量表,为 AI Infra 从业者提供了扎实的入门参考。

💡 主要观点

- Continuous Batching 将调度粒度从请求级下沉到 Token 级,显著提升 GPU 利用率。 通过 Token 级别的调度,多个请求可以复用模型权重,将 QKV_Proj、O_Proj、MLP 等操作从矩阵-向量乘法(GEMV)变回矩阵乘法(GEMM),从而摊薄读取权重的显存开销。

Paged Attention 通过虚拟页表机制管理 KV Cache,解决了显存碎片问题。 类似操作系统的虚拟内存,Paged Attention 为每个请求分配非连续的物理块,并通过 block_table 进行间接寻址,极大地提升了 GPU 显存利用率,是支撑 Continuous Batching 高性能推理的基础。
Prefill 阶段是计算密集型,Decode 阶段是访存密集型。 Prefill 阶段处理大量 Token,计算强度高,受限于 Tensor Cores 算力;Decode 阶段每次只处理一个 Token,需要从 HBM 搬运大量 KV Cache 和模型权重,因此受限于显存带宽。
FlashAttention 通过 Kernel 融合和 Online Softmax 算法打破内存墙。 FlashAttention 将 Q-K 点积、Softmax 和乘 V 融合为一个 CUDA Kernel,并在 SRAM 中分块计算,避免了将庞大的中间矩阵写入 HBM,从而大幅提升了 Attention 计算的性能。

💬 文章金句

- 有没有可能将调度的从 request level 下沉到 token level 呢? 恭喜你发明了 continuous batching。

  • 那每个请求的 KV Cache 显存申请是不是应该也是 token level,不要一次申请所有的显存。搞一个地址数组(block table)来维护每个请求的 KV Cache 地址就好? 恭喜你发明了 Paged Attention。
  • 相比于因显存碎片导致的 OOM,牺牲少部分的访存带宽换取整个系统吞吐量(Throughput)的大幅跃升,在 LLM 推理的整体逻辑中是划算的。
  • 不要推翻重来,而是在原有的基础上学习'修正值'(Delta)。它是'Scaling Law'在架构上的物理基础。
  • 单从推理来看,大模型的原理其实真没那么高深莫测,最难的数学公式怕是要数 RoPE 了。但是 AI Infra 的东西真的多~~ 根本学不完。

📊 文章信息

AI 初评:90

来源:腾讯技术工程

作者:腾讯技术工程

分类:人工智能

语言:中文

阅读时间:43 分钟

字数:10641

标签: 大模型推理, vLLM, Continuous Batching, Paged Attention, FlashAttention

阅读完整文章

查看原文 → 發佈: 2026-05-25 17:36:00 收錄: 2026-05-25 22:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。