本文报道了 DeepSeek 寻求首次外部融资以支持其万亿参数 V4 模型的开发,并披露该模型将基于华为昇腾芯片,旨在摆脱对英伟达生态的依赖。
📝 详细摘要
文章综合多家外媒报道,披露了 AI 公司 DeepSeek 正在寻求其史上首次外部融资,目标估值不低于 100 亿美元,筹集至少 3 亿美元。此举标志着创始人梁文锋从坚持独立到拥抱外部资本的重大转变,旨在为即将发布的 V4 模型储备资金和算力。文章重点介绍了 V4 模型的技术细节:采用 MoE 架构,总参数约 1 万亿,激活参数 370 亿;上下文窗口扩展至 100 万 token,并引入 Engram 条件记忆架构;支持原生多模态;代码能力大幅强化。最关键的信息是,V4 将运行在华为昇腾芯片上,这是 DeepSeek 首次从英伟达 CUDA 生态迁移至国产硬件平台,具有重要的战略意义。文章分析了此举对英伟达的潜在冲击,并探讨了在激烈竞争和成本压力下,DeepSeek 融资与硬件迁移背后的商业与技术逻辑。
💡 主要观点
- DeepSeek 打破「从不融资」原则,寻求首次外部融资以应对模型开发的高昂成本。 在 AI 大模型竞赛日益烧钱的背景下,即便是以效率著称的 DeepSeek 也需要外部资本支持其万亿参数 V4 模型的研发和部署,防止人才流失并获取更多算力。
💬 文章金句
- 打破「从不融资」铁律的 DeepSeek,这次寻求以不低于 100 亿美元的估值,筹集至少 3 亿美元的资金。
- V4 采用 MoE 架构,总参数约 1 万亿,但每个 token 仅激活约 370 亿参数,推理成本与 V3 持平。
- V4 将运行在华为最新的昇腾芯片上。DeepSeek 的工程师们花了大量时间解决 V4 对华为芯片的适配问题,重写核心代码,从英伟达的 CUDA 生态迁移到华为的 CANN 架构。
- 老黄本人对此也不淡定。他在近期采访中直言,DeepSeek 基于华为平台的新模型「对美国来说将是一个糟糕的结果」。
- V4 真正的赌注,在于它要证明前沿 AI 可以完全脱离英伟达生态独立运转。3 亿美元,押的就是这一把。
📊 文章信息
AI 初评:84
来源:AINLP
作者:AINLP
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2130
标签: DeepSeek, 融资, V4 模型, 华为昇腾, 英伟达