深度访谈：阿里云 X 平头哥，模型推理提升 13 倍背后的秘密

📌 一句话摘要

本文通过 InfoQ 对阿里云与平头哥专家的深度访谈，系统剖析了 AI 推理范式从 Chat 到 Agent 的演进、软硬协同优化的关键技术路径，以及国产算力在成本、稳定性和生态协同方面的实践与思考。

📝 详细摘要

文章以 InfoQ 对阿里云专有云推理加速负责人冯梦轲（翼宏）与平头哥半导体产品总监黄伟（金甲）的深度访谈为核心，探讨了 AI 推理领域的现状与未来。访谈指出，AI 焦点正从对话转向做事，推理范式随之从 Chat 演进至 Thinking 和 Agent，对序列长度、计算复杂度和系统稳定性提出更高要求。文章深入拆解了推理优化的关键技术，包括模型量化、MoE 优化、软硬协同等，并揭示了阿里云在 PPU 芯片上实现推理性能 13.1 倍提升背后的三大因素：深度参与社区、热点算子优化及面向集群的创新（如专家路由优化、大 EP 部署模式重构）。最后，专家展望了未来推理加速将更注重降本、贴近业务场景，并强调基于国产芯片和云平台的垂直整合与生态协同是推动产业发展的关键。

💡 主要观点

- AI 推理范式正从 Chat 向 Thinking 和 Agent 演进，带来序列长度、计算复杂度和系统稳定性的全新挑战。 随着 AI 从认知智能走向行为智能，推理任务从单次问答扩展到长时运行、工具调用和多轮决策，处理百万 Token 上下文成为常态，对底层算力、KV Cache 管理和通信效率提出更高要求。

推理优化是一个多维协同的系统工程，关键在于根据业务场景灵活组合技术，并实现从芯片到模型的垂直整合。 优化涉及模型量化、算子优化、并行策略、KV Cache 管理等多个层面。阿里云实现 13.1 倍性能提升，是推理特性、热点算子优化与集群能力创新（如专家路由优化、传输量化顺序重构）共同作用的结果，体现了软硬协同的价值。

国产算力的发展路径在于通过软件、模型和系统的联合优化弥补硬件差距，并构建以成本、稳定性、兼容性为核心的可规模化交付基础设施。 面对与顶级 GPU 的算力差距，国内产业更需在云平台、推理系统和模型结构间做联合优化（如适配线性注意力）。大规模商用的关键不仅是性能，更是降低迁移成本、确保服务稳定性和做好上下游生态协同。

未来推理加速的竞争焦点将从单纯算力比拼转向系统级优化和生态能力，核心目标是持续降低百万 Token 的推理成本并更懂业务。 借鉴黄仁勋提出的 Token 工厂概念，未来推理需在延迟、并发和成本的不可能三角中寻求平衡。推理算力需要更高效、智能地匹配业务场景增长，推动 AI 成为新的社会生产基础设施。

💬 文章金句

- 大模型正在从‘对话’阶段走向‘做事’阶段。

推理优化不是靠单点突破，而是一个多维协同的系统工程。
未来推理加速的重点，不只是算得更快，还要更懂业务、更贴近场景。
只有上下层联动，才能真正实现 1+1 大于 2，把收益传递到最终应用端。
这 13.1 倍的提升不是依靠单点突破，而是由推理特性优化、热点算子优化和集群能力创新共同实现的。

📊 文章信息

AI 初评：91

来源：InfoQ 中文

作者：InfoQ 中文

分类：人工智能

语言：中文

阅读时间：37 分钟

字数：9026

标签： AI 推理, 推理优化, 软硬协同, 国产算力, 阿里云

阅读完整文章

深度访谈：阿里云 X 平头哥，模型推理提升 13 倍背后的秘密

🤖 問 AI