DeepSeek-V4华为昇腾首发 黄仁勋担心的事来了?

2026年04月24日 21:52   21世纪经济报道 21财经APP   倪雨晴
推理时代,国产算力生态PK英伟达。

21世纪经济报道记者倪雨晴

最近,英伟达创始人兼CEO黄仁勋在一场访谈中提到:“DeepSeek绝⾮⼀个⽆关紧要的进步,如果DeepSeek率先在华为上发布,那对美国来说将是⼀个可怕的结果。”

为什么?因为如果全球的AI模型,在英伟达之外的芯片上,比如在中国硬件上运行得更好,那会使他们处于劣势。

而这一设想,在4月24日有了现实映射。当天,DeepSeek发布了DeepSeek-V4的预览版本,共有两款模型,分别是DeepSeek-V4-Pro和DeepSeek-V4-Flash。

(图源:公司官网)

华为同步宣布,DeepSeek-V4在昇腾首发,昇腾超节点全系列产品支持DeepSeek V4系列模型。其中,昇腾950通过融合kernel和多流并行技术大幅提升推理性能,昇腾A3超节点系列产品也全面适配。

华为之外,寒武纪基于vLLM推理框架完成了对DeepSeek-V4两个版本的Day0适配。一个围绕国产算力展开的先进模型运行与部署体系,正在快速成型。

当然,DeepSeek-V4同样支持英伟达生态,官方文档介绍,DeepSeek-V4将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证。

但是,DeepSeek和华为的适配正越来越深,比如他们联合定义昇腾超节点,进一步大幅提升延迟和吞吐,同时实现低成本,且兼顾万卡级别的Scale out集群规模。眼下,黄仁勋的担心未必成真,然而,未来大模型在哪家硬件上适配优化得更好,各家还将继续比拼。

还有一个转变值得关注。根据IDC最新报告,2025年国产GPU与AI芯片厂商的市场份额攀升至41%,总出货量约400万张。其中,华为出货量排名第一,占总量近半,阿里平头哥紧随其后,百度昆仑芯、寒武纪并列第三。此外,海光信息、沐曦、天数智芯等厂商稳步放量,成为紧紧跟随的第二梯队。

在这样的时间点上,DeepSeek-V4的发布,已不再只是一次模型能力的升级,而更像是一次产业信号的集中释放。当顶尖模型适配国产算力、算力体系逐步形成规模、生态协同初现雏形,AI竞争的底层逻辑正在发生转变。

资本市场已经率先反应,截至4月24日收盘,海光信息股价上涨8.2%,中芯国际上涨4.7%,华虹公司上涨12.31%,寒武纪上涨2.23%,润和软件上涨9.48%。

随着推理时代到来,国产算力试图弯道超车。英伟达定义了一代AI计算范式,以华为昇腾为代表的国产体系,正在尝试改写版图。

DeepSeek-V4迭代有多猛

过去一年多的全球大模型竞赛,DeepSeek是鲶鱼,也有些“异类”。它既不是参数规模最大的一类,也不是最早引爆市场的一类,却凭借技术颠覆成本,迅速打开局面。随着V4的发布,这家公司主动迈向能力竞争的主战场。

从技术路径看,DeepSeek-V4最直观的变化,是模型规模与能力边界的同步抬升。万亿级参数规模的引入,使其在复杂推理、Agent多轮任务处理以及代码生成等关键能力上,开始逼近OpenAI与Anthropic等头部闭源模型。

其中,DeepSeek-V4-Pro的Agent能力显著增强。DeepSeek官网介绍道,在Agentic Coding 评测中,V4-Pro已达到当前开源模型最佳水平,目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈,使用体验优于Sonnet4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

(图源:公司官网)

不论编程还是数学能力,都是DeepSeek一直以来的强项。而DeepSeek-V4更深层的变化,还在于结构创新和上下文推理能力。

DeepSeek-V4开创了一种全新的注意力机制,不仅大幅降低了对计算和显存的需求,而且让1M(一百万)上下文成为DeepSeek的标配。随着上下文窗口扩展至百万token级,以及Agent能力的系统性强化,DeepSeek-V4模型推理效率更进一步。

与此同时,DeepSeek并没有放弃其最具杀伤力的武器——成本控制。在性能快速逼近行业顶级水平的同时,其推理成本依然保持在相对低位,这种“能力上探+价格下探”的组合,又一次冲击市场定价体系。

DeepSeek-V4-Pro与V4-Flash最大上下文长度为一百万,输入(缓存命中)价格分别为1元/百万Tokens、0.2元/百万Tokens;输出价格为24元/百万Tokens、2元/百万Tokens。

(图源:公司官网)

需要指出的是,DeepSeek-V4-Flash并不是低配版,推理能力、Agent能力和V4-Pro接近,只是高难度任务上存在差距,但两者同属大模型第一梯队。

大模型竞争正在从单一维度对比,走向综合能力比拼。未来的赢家,不再只是参数规模最大或技术最前沿的一方,而是能够在性能、成本与生态之间取得平衡的系统型玩家。

如果把DeepSeek-V4放到全球大模型竞赛中来看,仅2026年前四个月,全球范围内头部厂商已经密集发布了数十款具有代表性的模型或关键迭代版本,行业进入前所未有的高频演进阶段。

海外阵营中,OpenAI连续推出GPT-5.3 Codex、GPT-5.4及GPT-5.5等多个版本,持续强化推理与Agent能力;Anthropic密集迭代Claude 4.x系列,将长任务执行与代码能力推向新高度;Google DeepMind则通过Gemini 3.x系列持续推进多模态与统一模型架构。

国内阵营同样进入竞速周期。阿里巴巴持续迭代Qwen系列模型,强化开源与企业服务能力;字节跳动在豆包大模型及多模态方向快速推进,强调应用侧落地;腾讯持续升级混元大模型,重点发力产业与生态协同;MiniMax则在多模态与长上下文领域频繁发布新版本,强化差异化路径;此外,Kimi、智谱等厂商也在持续推出迭代版本,推动开源与商业模型并行发展。

从整体节奏来看,全球大模型竞争已经从“季度级发布”进入“月更级甚至周更级演进”,技术进步呈现出明显的加速态势。在这样高度密集的竞争环境中,DeepSeek-V4的迭代突破更具分量和意义,不仅是更强大的模型,还在于开源体系进化和联动国产算力,尤其为算力生态提振信心。

华为昇腾首发 CANN挑战CUDA

在DeepSeek-V4相关的信息中,“昇腾首发”或许是最值得反复咀嚼的一个细节。这意味着在推理侧,昇腾已经能够全面支持DeepSeek,但是在训练侧的合作,双方目前都没有透露更多信息。

表面上看,这是一次算力适配或部署选择,但放在更宏观的产业语境中,它更像是一次关于产业路径的迁移重构。

长期以来,全球AI算力体系几乎围绕英伟达展开。英伟达的CUDA生态不仅提供了强大的开发工具链,也在事实上定义了AI计算的标准接口。在这一体系之下,大模型厂商虽然在算法层面竞争激烈,但在底层算力选择上却高度一致。这种“上层竞争、底层统一”的格局,使英伟达在产业链中占据了极强的话语权。

而DeepSeek-V4选择在华为昇腾平台首发,本质上是在这一格局中撕开一个口子。它传递出的核心信号是:头部模型厂商开始具备脱离单一算力生态的能力。

更值得关注的是,这一迁移并非停留在表层适配,而在于国产AI体系形成相对完整的闭环,从芯片、框架到模型,再到应用落地,国产模型和国产算力强强联合。这种闭环能力的重要性,在于它提供了一种可复制的产业路径,不依赖单一外部技术体系,国产生态可以支撑顶级AI模型的运行与迭代。

并且,生态成本能够进一步降低。DeepSeek在价格表中特别提到:“受限于高端算力,目前DeepSeek-V4-Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。”

这背后,一方面是华为硬件能力的快速提升。昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾A2、A3及950全系列产品适配DeepSeek-V4-Flash、DeepSeek-V4-Pro。

按照华为的计划,从2026年推出昇腾950系列,2027年迭代到960,再到2028年的970,几乎以“一年一代算力翻倍”的速度推进。尽管昇腾单芯片能力和英伟达高端产品有差距,但是超节点和集群的思路,正在开启新路径。

另一方面值得注意的是AI系统软件生态的博弈。从英伟达CUDA到昇腾CANN框架的转移,涉及大规模算子重写、训练流程重构以及精度与性能的重新调优。这是一项典型的系统工程,其复杂度不低于模型本身的训练。

4月24日下午,华为计算还特地进行了一场DeepSeek-V4昇腾首发的直播,讲解基于CANN的训推优化实践。可以说,华为CANN是CUDA最具冲击力的挑战者,它诞生于昇腾芯片的生态需求,定位与CUDA高度相似,同样承担着连接上层AI框架与底层硬件的桥梁作用,是华为昇腾AI生态的核心软件底座。

与CUDA的闭源模式不同,CANN走的是开源开放之路。2025年华为正式宣布CANN全面开源,将算子库、通信库等核心代码开放至社区,同时通过分层深度开放,实现从算子开发层到应用部署层的全流程开放,吸引全球开发者共建生态。

经过六七年的发展,CANN已升级至8.0版本,新增数百个优化算子与API,大幅缩短算子开发周期,同时兼容PyTorch、TensorFlow、MindSpore等主流AI框架,适配昇腾全系列芯片,形成了“芯片+CANN+框架”的原生生态。

从竞争格局看,这一事件对英伟达的影响,并不在于短期市场份额的波动,而在于长期结构性变化的开端。英伟达过去十余年的成功,很大程度上建立在CUDA生态的锁定效应之上。一旦模型厂商开始探索并验证其他技术路径,这种锁定效应便会逐步削弱。算力市场也将从单极主导走向多极竞争。

当然,这一过程不会一蹴而就。英伟达在高端训练能力、软件生态以及开发者基础方面,仍然具有显著优势。但DeepSeek V4的“昇腾首发”,至少证明了一点,替代路径不仅存在,而且正在变得可行。

当模型能力逐渐趋同,算力体系的选择,将成为影响产业格局的关键变量之一。而DeepSeek与昇腾的组合,正在将这一变量推向台前。

关注我们