本文深入解析了华为昇腾新一代 AI 芯片 Ascend 950PR 与 Ascend 950DT 的硬件架构、核心特性及互联技术,重点介绍了其在计算、存储、互联三大维度的系统性升级,旨在为大规模 AI 训练与推理提供更强算力底座。
📝 详细摘要
文章详细介绍了华为昇腾最新发布的 Ascend 950 系列 AI 芯片,包括面向 Prefill 和推荐场景的 950PR 以及面向 Decode 和训练场景的 950DT。文章从芯片架构、计算与通信规格、关键新特性等多个维度进行了全面解析。核心内容涵盖:1)基于第三代 DaVinci 架构的 AICore 子系统,支持 HiF8/FP8 等低精度格式、Cube-Vector 融合计算及 SIMD/SIMT 混合编程;2)存储子系统支持高容量与高带宽两种内存;3)IO 子系统采用创新的灵衢互联(UB)技术,支持超高带宽、超低时延的大规模组网,并详细阐述了其超节点集群的多种硬件拓扑。文章指出,这些升级旨在系统性提升大模型训练、推理、推荐、多模态等核心 AI 业务场景的性能与效率。
💡 主要观点
- Ascend 950 采用双芯片策略,针对不同场景优化性价比与性能。 Ascend 950PR 面向 Prefill 和推荐场景,注重成本效益;Ascend 950DT 面向 Decode 和训练场景,提供更高的访存带宽以追求极致性能。两者基于同一 Die 与不同内存合封,体现了场景化设计思路。
💬 文章金句
- Ascend 950PR 中的 PR,代表 Prefill&Recommendation,此芯片面向的是 Prefill 和推荐场景,特点是以较低的成本,获得更高的性价比;Ascend 950DT 中的 DT,代表 Decode&Training,此芯片面向的是 Decode 和训练场景,特点是更高的访存带宽,获取更高的性能。
- 第三代 DaVinciCore 通过全栈数值格式创新和访存效率优化,彻底释放低精度计算的潜力。
- 灵衢互联 UB(UnifiedBus,简称 UB),是面向新一代智算集群打造的新型互联协议,是破解算力瓶颈、共建开放生态的重要布局。
- SIMD/SIMT 混合编程:开发者可自由选择并行模式——规则计算用 SIMD 双发指令榨干硬件性能,复杂逻辑(如多条件分支)/小包搬运等场景切至 SIMT 线程级并行,代码可读性与执行效率兼得。
- Ascend 950 围绕超节点架构持续创新,将多台物理机器深度互联,重新定义了高效、稳定、可扩展的大规模有效算力新范式。
📊 文章信息
AI 初评:87
来源:CSDN
作者:CSDN
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3902
标签: 昇腾 Ascend, AI 芯片, 硬件架构, 大模型训练, 灵衢互联