← 回總覽

在 AKS 上大规模运行 Ray

📅 2026-03-12 17:00 Claudio Masolo 软件编程 2 分鐘 1485 字 評分: 76
Ray AKS Anyscale MLOps GPU 扩展
📌 一句话摘要 微软与 Anyscale 合作提供在 AKS 上扩展 Ray 的架构指南,解决了 GPU 短缺、存储集成和自动化安全管理等问题。 📝 详细摘要 本文详细介绍了微软 AKS 团队如何针对大规模 AI 工作负载优化 Anyscale 托管 Ray 服务的部署。文章解决了三个关键的运维障碍:通过多集群/多区域架构克服区域 GPU 配额限制;使用 Azure BlobFuse2 实现 POSIX 兼容存储,从而简化 ML 数据管理;以及通过 Microsoft Entra ID 和 AKS 工作负载标识增强安全性,实现自动化的凭据轮换。该指南反映了更广泛的行业趋势,即 Azure、

📌 一句话摘要

微软与 Anyscale 合作提供在 AKS 上扩展 Ray 的架构指南,解决了 GPU 短缺、存储集成和自动化安全管理等问题。

📝 详细摘要

本文详细介绍了微软 AKS 团队如何针对大规模 AI 工作负载优化 Anyscale 托管 Ray 服务的部署。文章解决了三个关键的运维障碍:通过多集群/多区域架构克服区域 GPU 配额限制;使用 Azure BlobFuse2 实现 POSIX 兼容存储,从而简化 ML 数据管理;以及通过 Microsoft Entra ID 和 AKS 工作负载标识增强安全性,实现自动化的凭据轮换。该指南反映了更广泛的行业趋势,即 Azure、AWS 和 Google Cloud 等主要云服务商正在竞相为 Ray 框架提供最精简的基础设施,而 Ray 已成为分布式 Python 原生计算的标准。

💡 主要观点

- 实施多集群和多区域架构使工程团队能够有效绕过区域 GPU 容量限制和配额。 通过将 Ray 集群分布在不同的 Azure 区域,团队可以整合配额,并在发生故障或容量问题时重新路由工作负载。这确保了超出单个区域限制的计算密集型 ML 任务的高可用性和可扩展性。

利用 Azure BlobFuse2 可以将云存储挂载为 Ray 工作节点 Pod 的本地 POSIX 兼容文件系统。 这种方法允许 Ray 任务使用标准文件 I/O 读取数据集和写入检查点。通过将数据与计算解耦,集群可以在不丢失数据的情况下动态扩展,而本地缓存可防止大型训练运行期间的 GPU 停顿。
采用 Microsoft Entra ID 和 AKS 工作负载标识可实现凭据轮换自动化,并增强分布式集群的安全态势。 用短寿命、自动刷新的令牌取代手动 API 密钥轮换,降低了服务中断的风险。该模型为 Azure 资源提供细粒度的 RBAC,并通过 Azure 活动日志生成全面的审计追踪。
超大规模云厂商正越来越多地在基础设施优化而非核心 Ray 运行时上展开竞争,以吸引大规模 AI 工作负载。 随着 Azure、AWS 和 Google Cloud 都采用了托管 Ray 算子,竞争优势转向了各供应商将其原生存储、网络和硬件加速器与 Ray 生态系统集成的完善程度。

💬 文章金句

- Ray 是一个 Python 原生分布式计算框架,旨在将 AI 和 ML 工作负载从单台笔记本电脑扩展到跨越数千个节点的集群。

  • 工作负载标识模型为 Azure 资源访问提供细粒度的 RBAC,并顺带通过 Azure 活动日志生成完整的审计追踪。
  • 所有三大云厂商都选择了相同的托管 Ray 算子……现在,竞争不再仅仅关乎运行时,而更多地在于哪家云服务商能最好地精简周边基础设施。

📊 文章信息

AI 评分:76

来源:InfoQ

作者:Claudio Masolo

分类:软件编程

语言:英文

阅读时间:4 分钟

字数:795

标签: Ray, AKS, Anyscale, MLOps, GPU 扩展

阅读完整文章

查看原文 → 發佈: 2026-03-12 17:00:00 收錄: 2026-03-12 18:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。