面向 Ascend 950，CANN 技术架构的变与不变

📌 一句话摘要

本文深入解析了华为昇腾新一代 AI 芯片 Ascend 950PR 与 Ascend 950DT 的硬件架构、核心特性及互联技术，重点介绍了其在计算、存储、互联三大维度的系统性升级，旨在为大规模 AI 训练与推理提供更强算力底座。

📝 详细摘要

文章详细介绍了华为昇腾最新发布的 Ascend 950 系列 AI 芯片，包括面向 Prefill 和推荐场景的 950PR 以及面向 Decode 和训练场景的 950DT。文章从芯片架构、计算与通信规格、关键新特性等多个维度进行了全面解析。核心内容涵盖：1）基于第三代 DaVinci 架构的 AICore 子系统，支持 HiF8/FP8 等低精度格式、Cube-Vector 融合计算及 SIMD/SIMT 混合编程；2）存储子系统支持高容量与高带宽两种内存；3）IO 子系统采用创新的灵衢互联（UB）技术，支持超高带宽、超低时延的大规模组网，并详细阐述了其超节点集群的多种硬件拓扑。文章指出，这些升级旨在系统性提升大模型训练、推理、推荐、多模态等核心 AI 业务场景的性能与效率。

💡 主要观点

- Ascend 950 采用双芯片策略，针对不同场景优化性价比与性能。 Ascend 950PR 面向 Prefill 和推荐场景，注重成本效益；Ascend 950DT 面向 Decode 和训练场景，提供更高的访存带宽以追求极致性能。两者基于同一 Die 与不同内存合封，体现了场景化设计思路。

第三代 DaVinci 架构在计算效能、编程易用性和访存效率上实现多项突破。 架构创新包括支持 HiF8/FP8 等低精度格式提升算力效率、Cube-Vector 融合通路提升混合算子性能、SIMD/SIMT 混合编程模型提升开发灵活性，以及 NDDMA 指令和优化的缓存机制提升数据搬运与访存效率。

灵衢互联（UB）技术是构建大规模超节点集群、破解通信瓶颈的关键。 UB 提供了超高带宽、超低时延的新型互联协议，支持多种硬件拓扑（如 POD、AI Server、标卡），并集成了硬化的集合通信加速单元，旨在实现 CPU、NPU、存储等异构组件的无主从直接通信，提升大规模集群的算力效率。

💬 文章金句

- Ascend 950PR 中的 PR，代表 Prefill&Recommendation，此芯片面向的是 Prefill 和推荐场景，特点是以较低的成本，获得更高的性价比；Ascend 950DT 中的 DT，代表 Decode&Training，此芯片面向的是 Decode 和训练场景，特点是更高的访存带宽，获取更高的性能。

第三代 DaVinciCore 通过全栈数值格式创新和访存效率优化，彻底释放低精度计算的潜力。
灵衢互联 UB（UnifiedBus，简称 UB），是面向新一代智算集群打造的新型互联协议，是破解算力瓶颈、共建开放生态的重要布局。
SIMD/SIMT 混合编程：开发者可自由选择并行模式——规则计算用 SIMD 双发指令榨干硬件性能，复杂逻辑（如多条件分支）/小包搬运等场景切至 SIMT 线程级并行，代码可读性与执行效率兼得。
Ascend 950 围绕超节点架构持续创新，将多台物理机器深度互联，重新定义了高效、稳定、可扩展的大规模有效算力新范式。

📊 文章信息

AI 初评：87

来源：CSDN

作者：CSDN

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3902

标签：昇腾 Ascend, AI 芯片, 硬件架构, 大模型训练, 灵衢互联

阅读完整文章

面向 Ascend 950，CANN 技术架构的变与不变

🤖 問 AI