别盯着 GPU 了，CPU 正成为 AI 时代的“新瓶颈”

📌 一句话摘要

本文指出，随着 AI 工作负载向智能体（Agent）驱动架构转变，负责任务调度、工具调用和系统协同的 CPU 正取代 GPU，成为制约 AI 系统扩展与效率的新瓶颈，并分析了英特尔、AMD、英伟达三大厂商的应对策略。

📝 详细摘要

文章挑战了“算力即 GPU”的传统观念，提出在智能体（Agent）时代，AI 系统的性能瓶颈正从 GPU 推理转向 CPU 调度。智能体需要执行多步推理、API 调用、数据 I/O 等复杂任务，这些工作负载大部分由 CPU 承担。佐治亚理工学院的研究量化了 CPU 端工具处理时间占总延迟的 50% 至 90.6%。同时，模型上下文窗口的扩展（如 100 万 token）导致 KV 缓存远超 GPU 显存，需要将部分缓存卸载至 CPU 内存，进一步提升了 CPU 内存带宽和与 GPU 协同能力的重要性。文章分析了英特尔、AMD、英伟达三大厂商的不同策略：英特尔通过绑定谷歌等大客户和推出 CPU+加速器组合方案巩固地位；AMD 受益于智能体需求，服务器 CPU 份额快速增长；英伟达则设计 Grace CPU 作为 GPU 的“调度中枢”，优先保证 CPU-GPU 协同效率。文章预测，AI 驱动的 CPU 市场规模将大幅增长，构建“CPU 调度基础设施”将成为 AI 竞赛的新制胜点。

💡 主要观点

- 智能体（Agent）工作负载使 CPU 成为 AI 系统的新瓶颈。 智能体需要执行多步推理、API 调用、数据库读写等复杂任务，这些非密集计算任务主要由 CPU 负责。研究表明，CPU 端工具处理时间可占总延迟的 90% 以上，GPU 常因等待 CPU 而闲置。

大模型长上下文窗口加剧了对 CPU 内存和协同能力的需求。 支持百万 token 的模型其 KV 缓存远超单块 GPU 显存，需将部分缓存卸载至 CPU 内存。这使得 CPU 内存带宽、容量以及与 GPU 之间的高速互连（如 NVLink C2C）成为关键性能指标。

AI 芯片厂商正围绕 CPU 展开差异化竞争，策略反映对 AI 架构的不同理解。 英特尔绑定大客户并推组合方案；AMD 受益于通用 CPU 需求增长；英伟达则设计专用 Grace CPU，优先保证与 GPU 的极致协同，将其定位为 AI 算力体系的“调度中枢”。

AI 基础设施竞赛正从堆砌 GPU 算力转向构建高效的“CPU 调度层”。 OpenAI 与 AWS 的协议、谷歌与英特尔的合作都表明，同步扩张 CPU 基础设施以支撑智能体运行已成为行业共识。未来 AI 系统的效率和经济性将更取决于系统级协同能力。

💬 文章金句

- GPU 依然重要，但决定 AI‘能不能跑起来’的关键，正逐渐转向长期被忽视的 CPU。

智能体工作负载把任务‘推回’到了传统 CPU 任务上。
在智能体世界中，智能体需要调用 API 和各类业务应用程序，这些任务最适合由 CPU 来完成。
英伟达在设计上优先保证 CPU 与 GPU 之间的高效协同。
AI 竞赛的制胜点正在前移。当算力不再稀缺，谁能最先解决系统级的‘瓶颈’，谁才能在这场万亿级的游戏中笑到最后。

📊 文章信息

AI 初评：88

来源：腾讯科技

作者：腾讯科技

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3854

标签： AI 基础设施, CPU, 智能体 (Agent), 系统瓶颈, 英伟达

阅读完整文章

别盯着 GPU 了，CPU 正成为 AI 时代的“新瓶颈”

🤖 問 AI