在 AKS 上大规模运行 Ray

📌 一句话摘要

微软与 Anyscale 合作提供在 AKS 上扩展 Ray 的架构指南，解决了 GPU 短缺、存储集成和自动化安全管理等问题。

📝 详细摘要

本文详细介绍了微软 AKS 团队如何针对大规模 AI 工作负载优化 Anyscale 托管 Ray 服务的部署。文章解决了三个关键的运维障碍：通过多集群/多区域架构克服区域 GPU 配额限制；使用 Azure BlobFuse2 实现 POSIX 兼容存储，从而简化 ML 数据管理；以及通过 Microsoft Entra ID 和 AKS 工作负载标识增强安全性，实现自动化的凭据轮换。该指南反映了更广泛的行业趋势，即 Azure、AWS 和 Google Cloud 等主要云服务商正在竞相为 Ray 框架提供最精简的基础设施，而 Ray 已成为分布式 Python 原生计算的标准。

💡 主要观点

- 实施多集群和多区域架构使工程团队能够有效绕过区域 GPU 容量限制和配额。 通过将 Ray 集群分布在不同的 Azure 区域，团队可以整合配额，并在发生故障或容量问题时重新路由工作负载。这确保了超出单个区域限制的计算密集型 ML 任务的高可用性和可扩展性。

利用 Azure BlobFuse2 可以将云存储挂载为 Ray 工作节点 Pod 的本地 POSIX 兼容文件系统。 这种方法允许 Ray 任务使用标准文件 I/O 读取数据集和写入检查点。通过将数据与计算解耦，集群可以在不丢失数据的情况下动态扩展，而本地缓存可防止大型训练运行期间的 GPU 停顿。

采用 Microsoft Entra ID 和 AKS 工作负载标识可实现凭据轮换自动化，并增强分布式集群的安全态势。 用短寿命、自动刷新的令牌取代手动 API 密钥轮换，降低了服务中断的风险。该模型为 Azure 资源提供细粒度的 RBAC，并通过 Azure 活动日志生成全面的审计追踪。

超大规模云厂商正越来越多地在基础设施优化而非核心 Ray 运行时上展开竞争，以吸引大规模 AI 工作负载。 随着 Azure、AWS 和 Google Cloud 都采用了托管 Ray 算子，竞争优势转向了各供应商将其原生存储、网络和硬件加速器与 Ray 生态系统集成的完善程度。

💬 文章金句

- Ray 是一个 Python 原生分布式计算框架，旨在将 AI 和 ML 工作负载从单台笔记本电脑扩展到跨越数千个节点的集群。

工作负载标识模型为 Azure 资源访问提供细粒度的 RBAC，并顺带通过 Azure 活动日志生成完整的审计追踪。
所有三大云厂商都选择了相同的托管 Ray 算子……现在，竞争不再仅仅关乎运行时，而更多地在于哪家云服务商能最好地精简周边基础设施。

📊 文章信息

AI 评分：76

来源：InfoQ

作者：Claudio Masolo

分类：软件编程

语言：英文

阅读时间：4 分钟

字数：795

标签： Ray, AKS, Anyscale, MLOps, GPU 扩展

阅读完整文章

在 AKS 上大规模运行 Ray

🤖 問 AI