**介绍 SPEED-Bench：一个用于推测解码的统一且多样化的基准测试**

📌 一句话摘要

SPEED-Bench 是一套全面的基准测试套件，旨在评估跨不同语义领域和真实生产级服务工作负载下的推测解码（Speculative Decoding， SD）。

📝 详细摘要

本文介绍了由 NVIDIA 开发的统一评估框架 SPEED-Bench，旨在解决推测解码（SD）基准测试碎片化且往往不切实际的问题。SPEED-Bench 由三个核心组件组成：一个使用基于嵌入（embedding）的选择来最大化 11 个类别语义多样性的“定性拆分（Qualitative split）”；一个专为高并发和长上下文（1k-32k）生产场景设计的“吞吐量拆分（Throughput split）”；以及一个确保 TensorRT-LLM 和 vLLM 等引擎之间分词（tokenization）一致性的统一测量框架。作者证明了 SD 的性能高度依赖于领域，并且传统的基准测试方法（例如使用随机 token）会显著高估吞吐量，且无法模拟真实的混合专家模型（MoE）路由。

💡 主要观点

- 推测解码的性能本质上取决于数据、服务模式和系统约束。 SD 的有效性会根据语义领域的熵（例如编程与角色扮演）以及系统在高并发服务期间是处于计算受限还是内存受限状态而产生显著差异。

“定性拆分”最大化了语义多样性，以暴露草稿模型（draft models）在特定领域的失效情况。 通过使用选择算法来最小化提示词之间的成对余弦相似度，SPEED-Bench 确保了广泛的覆盖范围，揭示了词汇剪枝（vocabulary pruning）等优化措施如何损害多语言任务等长尾类别的性能。

“吞吐量拆分”在真实的生产级工作负载下评估系统级的加速效果。 它利用从 1k 到 32k token 的固定输入序列长度（ISL）桶，并支持高达 512 的批处理大小，反映了现代长上下文应用和高并发环境的需求。

使用随机 token 进行基准测试会导致结果出现显著偏差且过于乐观。 在 SD 设置中，随机输入可能会使吞吐量高估 23%，并且无法触发 MoE 模型中真实的专家路由，从而导致对系统行为和效率的测量不准确。

统一的测量框架对于可靠的跨引擎性能比较至关重要。 通过在外部处理分词和提示词格式化，该框架确保了不同的推理引擎（TRT-LLM、vLLM、SGLang）处理相同的输入，从而将 SD 算法的效果与预处理伪影隔离开来。

💬 文章金句

- SD 的推测质量和推理加速本质上是数据依赖、服务模式依赖和系统依赖的。

随着批处理大小的增加，推理通常会从计算受限模式转变为内存受限模式，从根本上改变了推测解码的成本效益权衡。
当启用 SD 时，随机 token 会使吞吐量高估约 23%。
随机输入也无法触发 MoE 模型中真实的专家路由，即使在非推测设置中也会导致吞吐量测量不准确。
这种设计将 SD 算法和系统优化的效果与预处理伪影隔离开来。

📊 文章信息

AI 评分：89

来源：Hugging Face Blog

作者：Talor Abramovich, Maor Ashkenazi, Izzy Putterman, Benjamin Chislett, Tiyasa Mitra, Bita Rouhani, Ran Zilberstein, Yonatan Geifman

分类：人工智能

语言：英文

阅读时间：9 分钟

字数：2135

标签：推测解码, LLM 推理, 基准测试, 性能优化, NVIDIA

阅读完整文章

**介绍 SPEED-Bench：一个用于推测解码的统一且多样化的基准测试**

🤖 問 AI

介绍 SPEED-Bench：一个用于推测解码的统一且多样化的基准测试