← 回總覽

“客户测 950,不到一周下单了”,DeepSeek V4 逼出昇腾真功夫

📅 2026-04-30 10:32 AI前线 人工智能 2 分鐘 1567 字 評分: 87
昇腾 DeepSeek V4 CANN AI芯片 软件生态
📌 一句话摘要 本文深度专访华为昇腾高管,揭示了昇腾芯片及 CANN 软件栈为适配 DeepSeek V4 所做的底层架构重构、软件栈解耦和生态建设策略,并阐述了其拒绝仿 CUDA、坚持自主路线的技术理念。 📝 详细摘要 本文是 InfoQ 对华为昇腾计算业务副总裁张良的深度专访。文章首先以 DeepSeek V4 为切入点,展示了昇腾 950 系列芯片及 CANN 软件栈如何通过原生适配混合注意力机制、MoE 等新架构,实现低时延推理和高吞吐性能,并透露客户认可度显著提升,已开始基于昇腾进行大模型训练。随后,文章详细介绍了昇腾为应对 AI 新算力周期所做的系统性调整:硬件层面优化算力配比

📌 一句话摘要

本文深度专访华为昇腾高管,揭示了昇腾芯片及 CANN 软件栈为适配 DeepSeek V4 所做的底层架构重构、软件栈解耦和生态建设策略,并阐述了其拒绝仿 CUDA、坚持自主路线的技术理念。

📝 详细摘要

本文是 InfoQ 对华为昇腾计算业务副总裁张良的深度专访。文章首先以 DeepSeek V4 为切入点,展示了昇腾 950 系列芯片及 CANN 软件栈如何通过原生适配混合注意力机制、MoE 等新架构,实现低时延推理和高吞吐性能,并透露客户认可度显著提升,已开始基于昇腾进行大模型训练。随后,文章详细介绍了昇腾为应对 AI 新算力周期所做的系统性调整:硬件层面优化算力配比、引入 SIMT 能力、强化细粒度访存并加速 FP8/FP4 落地;软件层面则对 CANN 进行大规模架构解耦,推出面向 Python 开发者的 PyPTO 编程方式,同时保留 C 语言底层优化能力。在生态建设上,昇腾明确拒绝走仿 CUDA 的捷径,坚持底层自主构建,同时兼容上层主流开发习惯,并积极推动其能力进入 PyTorch、Triton 等海外主流开源社区。文章最后指出,面对 Agent 等新应用带来的算力需求与挑战,昇腾团队将持续投入、修正问题,致力于打造真正自主且开放的 AI 计算生态。

💡 主要观点

- 昇腾通过软硬件协同优化,成功适配 DeepSeek V4,客户认可度显著提升。 CANN 针对 DeepSeek V4 的混合注意力、MoE 等新架构开发了原生算子,使 950 系列芯片在推理场景实现低时延(

昇腾对芯片体系进行系统性调整,以应对 Agent 等新场景对算力、灵活性和生态的更高要求。 硬件上优化算力配比、引入 SIMT 和细粒度访存能力,加速 FP8/FP4 落地;软件上对 CANN 进行大规模架构解耦,并推出面向 Python 开发者的 PyPTO 编程方式。
昇腾明确拒绝仿 CUDA 的捷径,坚持底层自主构建,同时兼容上层主流开发习惯。 昇腾认为仿 CUDA 无法建设真正自主的生态,因此从指令级、运行时到编译器都自主构建,但上层兼容 PyTorch 等主流框架,并积极推动其能力进入海外开源社区。

💬 文章金句

- 客户测了我们的 950,不到一个礼拜就说可以下单了。

  • 如果只是做一个'CUDA 2 号',虽然短期适配成本较低,基于这一体系做出的新特性、新功能,最终是建立在他人的生态上,而不是在建设真正自主的 AI 计算生态。
  • 只有痛下决心真正改掉以前的不足,才能把业务做得越来越好。
  • 做这一切,都取决于一个基础:你愿不愿意持续投入,愿不愿意把自己压到极致,在很短时间内把能力补起来,这是关键。
  • 在我个人看来,我的产品永远不完美,还要继续努力。面向未来,我们还有很多事要做。

📊 文章信息

AI 初评:87

来源:AI前线

作者:AI前线

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4189

标签: 昇腾, DeepSeek V4, CANN, AI芯片, 软件生态

阅读完整文章

查看原文 → 發佈: 2026-04-30 10:32:00 收錄: 2026-04-30 18:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。