本文介绍了昆仑芯针对大规模 LLM 推理冷启动耗时长的痛点,通过权重传输优化、编译缓存复用、Lazy CUDA Graph 及守护实例等技术,实现了超大模型秒级扩缩容的工程实践。
📝 详细摘要
针对大模型推理服务在流量波动时扩容缓慢(动辄数分钟)的问题,昆仑芯团队提出了全链路优化方案。核心瓶颈在于权重加载(磁盘 I/O)、编译开销和 CUDA Graph 初始化。优化手段包括:1. 自适应权重传输引擎,利用 NVLink/RDMA 实现节点间权重同步,绕过磁盘;2. 编译缓存复用,通过一致性哈希管理并同步 Triton 内核等编译中间态;3. Lazy CUDA Graph 策略,将捕获过程分阶段化,大幅降低初始化延迟;4. 守护实例模式,利用 sleep/wakeup 机制在极低资源占用下实现秒级唤醒;5. 进程启动优化,通过提前 Fork 避免 Python 包重复加载。实测显示,Qwen3-235B 等超大模型的扩容耗时从数百秒降至秒级,优化率超 98%。
💡 主要观点
- 自适应权重传输引擎突破磁盘 I/O 瓶颈。 利用高速网络(NVLink/RDMA)在节点间直接同步权重,替代低效的磁盘读取,使 348GB 权重传输缩短至 2 秒。
💬 文章金句
- 从 0 到完全拉起一个大模型服务,动辄数分钟。
- 我们设计了自适应权重传输引擎...完全绕开磁盘。
- 我们将 CUDA Graph 的启动耗时从原来的 10--60 秒降低到了 1--2 秒,实现了 10 到 30 倍的启动加速。
- 扩容耗时降低 95%,实现了秒级响应。
📊 文章信息
AI 评分:88
来源:百度Geek说
作者:百度Geek说
分类:人工智能
语言:中文
阅读时间:10 分钟
字数:2351
标签: LLM 推理, 昆仑芯, vLLM, 弹性扩缩容, RDMA