商汤大装置通过 AI 原生云基础设施架构,利用虚拟集群、高性能调度器及 Agentic Engine 等技术,重塑大模型时代的算力集群,实现极致弹性的算力服务。
📝 详细摘要
本文详细介绍了商汤大装置在 AI 原生时代对算力集群架构的重塑实践。商汤大装置首席架构师项铁尧指出,Kubernetes 正在通过 DRA、Workload API 等特性进化为 AI 时代的操作系统。商汤据此打造了 AI 算力池,采用「三明治」水平分层架构,涵盖底层基础设施、中间层虚拟集群技术及上层 PaaS 产品体系。该架构通过全量托管控制面与数据面,将扩缩容效率提升至秒级,并解决了资源孤岛问题。此外,商汤还自研了 SenseCore 调度器、容错引擎以及针对 Agent 场景优化的 Agentic Engine,旨在降低 AI 基础设施的使用门槛并提升超大规模生产场景的性能。
💡 主要观点
- Kubernetes 正在从容器编排工具进化为 AI 时代的操作系统。 通过引入动态资源分配(DRA)、Workload API 与 Gateway API 等新特性,K8s 能够更好地支撑 AI 原生时代的算力需求,推动集群架构向 AI 原生跃迁。
💬 文章金句
- K8s 逐渐从简单的容器编排工具,进化为 AI 时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向 AI 原生时代跃迁。
- 扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的 K8s API,用户无需对现有代码做任何修改即可无缝接入。
- 为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在离线混部、训练推理混合使用集群。
📊 文章信息
AI 评分:87
来源:量子位
作者:量子位的朋友们
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1909
标签: 商汤大装置, AI 原生, 算力集群, Kubernetes, Agentic Engine