从 CPU 到 GPU 全链路可信，百度智能云新一代 AI 机密计算实例的探索与落地

📌 一句话摘要

本文详细介绍了百度智能云第 7 代 AI 机密虚拟机如何通过整合英特尔 TDX、NVIDIA GPU 机密计算与 BlueField DPU 的 vDPA 技术，构建从 CPU 到 GPU 的全链路可信执行环境，以解决云上高敏感 AI 业务的数据安全问题。

📝 详细摘要

文章系统阐述了百度智能云在 AI 机密计算领域的工程实践，重点介绍了其第 7 代 AI 机密虚拟机的核心架构与技术突破。文章首先分析了企业上云面临的数据安全信任挑战，引出机密计算的重要性。随后，通过对比第 6 代方案的局限，详细说明了第 7 代方案如何实现三大核心突破：1）通过 CPU TDX 与 GPU 机密计算（CC）结合 Protected PCIe（PPCIe）加密链路，实现从 CPU 到 GPU 的端到端数据保护；2）利用 BlueField DPU 的 vDPA 技术实现 I/O 卸载，将 CPU 资源完整交付给用户，并支持多 GPU 通过 NVLink/NVSwitch 高速互联，满足大规模 AI 训练需求；3）通过固件优化和社区贡献，解决了 TDX 环境下共享内存标记、高地址空间设备兼容性等一系列复杂工程挑战。文章最后提供了性能评估数据，表明在引入安全增强后，内存、I/O 及 GPU 核心计算性能损失微乎其微。

💡 主要观点

- AI 机密计算的核心是构建全链路可信，而不仅是单点保护。 文章强调，有效的机密计算取决于整个数据路径是否始终处于受控边界内。百度第 7 代方案通过整合 CPU TDX、GPU CC 和 PPCIe 加密链路，封堵了从 CPU 内存到 PCIe 总线再到 GPU 显存的潜在泄露点，实现了端到端的安全保护。

在安全与性能/弹性间取得平衡是工程落地的关键。 文章深入剖析了采用 vDPA 方案而非 VFIO 直通的原因，即在获得接近物理机 I/O 性能的同时，保留了虚拟机的热迁移能力。这种“数据路径硬件卸载，控制路径软件管理”的设计，是平衡性能、安全与云原生弹性的典范。

解决底层硬件与机密计算环境的兼容性挑战需要深度系统优化。 文章分享了多个具体的技术挑战与解决方案，如 TDX 下共享内存的误标记问题、多 GPU 导致的高地址空间设备兼容性问题。这些优化不仅保障了产品落地，其修复代码也已贡献给 QEMU 开源社区，体现了工程深度。

💬 文章金句

- 机密计算的有效性，不取决于单一组件的安全能力，而取决于整个数据路径是否始终处于受控边界之内。

vDPA 的答案很直接——数据路径硬件卸载，控制路径软件管理。
AI 机密虚拟机的演进，本质上是对「可信边界」在复杂计算体系中的一次重构。
安全不意味着牺牲性能，这是第 7 代 AI 机密虚拟机时始终坚持的设计原则。
百度智能云所构建的，并不仅是一种产品形态，而是一种在 AI 计算时代下，重新定义数据使用方式的基础设施范式。

📊 文章信息

AI 初评：88

来源：百度Geek说

作者：百度Geek说

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4968

标签：机密计算, 可信执行环境, AI 基础设施, GPU 虚拟化, 数据安全

阅读完整文章

从 CPU 到 GPU 全链路可信，百度智能云新一代 AI 机密计算实例的探索与落地

🤖 問 AI