本文深度专访华为昇腾高管,揭示了昇腾芯片及 CANN 软件栈为适配 DeepSeek V4 所做的底层架构重构、软件栈解耦和生态建设策略,并阐述了其拒绝仿 CUDA、坚持自主路线的技术理念。
📝 详细摘要
本文是 InfoQ 对华为昇腾计算业务副总裁张良的深度专访。文章首先以 DeepSeek V4 为切入点,展示了昇腾 950 系列芯片及 CANN 软件栈如何通过原生适配混合注意力机制、MoE 等新架构,实现低时延推理和高吞吐性能,并透露客户认可度显著提升,已开始基于昇腾进行大模型训练。随后,文章详细介绍了昇腾为应对 AI 新算力周期所做的系统性调整:硬件层面优化算力配比、引入 SIMT 能力、强化细粒度访存并加速 FP8/FP4 落地;软件层面则对 CANN 进行大规模架构解耦,推出面向 Python 开发者的 PyPTO 编程方式,同时保留 C 语言底层优化能力。在生态建设上,昇腾明确拒绝走仿 CUDA 的捷径,坚持底层自主构建,同时兼容上层主流开发习惯,并积极推动其能力进入 PyTorch、Triton 等海外主流开源社区。文章最后指出,面对 Agent 等新应用带来的算力需求与挑战,昇腾团队将持续投入、修正问题,致力于打造真正自主且开放的 AI 计算生态。
💡 主要观点
- 昇腾通过软硬件协同优化,成功适配 DeepSeek V4,客户认可度显著提升。 CANN 针对 DeepSeek V4 的混合注意力、MoE 等新架构开发了原生算子,使 950 系列芯片在推理场景实现低时延(
💬 文章金句
- 客户测了我们的 950,不到一个礼拜就说可以下单了。
- 如果只是做一个'CUDA 2 号',虽然短期适配成本较低,基于这一体系做出的新特性、新功能,最终是建立在他人的生态上,而不是在建设真正自主的 AI 计算生态。
- 只有痛下决心真正改掉以前的不足,才能把业务做得越来越好。
- 做这一切,都取决于一个基础:你愿不愿意持续投入,愿不愿意把自己压到极致,在很短时间内把能力补起来,这是关键。
- 在我个人看来,我的产品永远不完美,还要继续努力。面向未来,我们还有很多事要做。
📊 文章信息
AI 初评:87
来源:AI前线
作者:AI前线
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4189
标签: 昇腾, DeepSeek V4, CANN, AI芯片, 软件生态