“客户测 950，不到一周下单了”，DeepSeek V4 逼出昇腾真功夫

📌 一句话摘要

本文深度专访华为昇腾高管，揭示了昇腾芯片及 CANN 软件栈为适配 DeepSeek V4 所做的底层架构重构、软件栈解耦和生态建设策略，并阐述了其拒绝仿 CUDA、坚持自主路线的技术理念。

📝 详细摘要

本文是 InfoQ 对华为昇腾计算业务副总裁张良的深度专访。文章首先以 DeepSeek V4 为切入点，展示了昇腾 950 系列芯片及 CANN 软件栈如何通过原生适配混合注意力机制、MoE 等新架构，实现低时延推理和高吞吐性能，并透露客户认可度显著提升，已开始基于昇腾进行大模型训练。随后，文章详细介绍了昇腾为应对 AI 新算力周期所做的系统性调整：硬件层面优化算力配比、引入 SIMT 能力、强化细粒度访存并加速 FP8/FP4 落地；软件层面则对 CANN 进行大规模架构解耦，推出面向 Python 开发者的 PyPTO 编程方式，同时保留 C 语言底层优化能力。在生态建设上，昇腾明确拒绝走仿 CUDA 的捷径，坚持底层自主构建，同时兼容上层主流开发习惯，并积极推动其能力进入 PyTorch、Triton 等海外主流开源社区。文章最后指出，面对 Agent 等新应用带来的算力需求与挑战，昇腾团队将持续投入、修正问题，致力于打造真正自主且开放的 AI 计算生态。

💡 主要观点

- 昇腾通过软硬件协同优化，成功适配 DeepSeek V4，客户认可度显著提升。 CANN 针对 DeepSeek V4 的混合注意力、MoE 等新架构开发了原生算子，使 950 系列芯片在推理场景实现低时延（

昇腾对芯片体系进行系统性调整，以应对 Agent 等新场景对算力、灵活性和生态的更高要求。 硬件上优化算力配比、引入 SIMT 和细粒度访存能力，加速 FP8/FP4 落地；软件上对 CANN 进行大规模架构解耦，并推出面向 Python 开发者的 PyPTO 编程方式。

昇腾明确拒绝仿 CUDA 的捷径，坚持底层自主构建，同时兼容上层主流开发习惯。 昇腾认为仿 CUDA 无法建设真正自主的生态，因此从指令级、运行时到编译器都自主构建，但上层兼容 PyTorch 等主流框架，并积极推动其能力进入海外开源社区。

💬 文章金句

- 客户测了我们的 950，不到一个礼拜就说可以下单了。

如果只是做一个'CUDA 2 号'，虽然短期适配成本较低，基于这一体系做出的新特性、新功能，最终是建立在他人的生态上，而不是在建设真正自主的 AI 计算生态。
只有痛下决心真正改掉以前的不足，才能把业务做得越来越好。
做这一切，都取决于一个基础：你愿不愿意持续投入，愿不愿意把自己压到极致，在很短时间内把能力补起来，这是关键。
在我个人看来，我的产品永远不完美，还要继续努力。面向未来，我们还有很多事要做。

📊 文章信息

AI 初评：87

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4189

标签：昇腾, DeepSeek V4, CANN, AI芯片, 软件生态

阅读完整文章

“客户测 950，不到一周下单了”，DeepSeek V4 逼出昇腾真功夫

🤖 問 AI