“训练为王”终结：AI推理新浪潮，英伟达谷歌华为切换赛道

2026年04月23日 21:37 21世纪经济报道 21财经APP 彭新,实习生孙子彧

智能体应用爆发，芯片厂商在推理侧发力。

21世纪经济报道记者彭新

在AI算力需求结构重构、争夺推理时代入场券的竞赛中，国产算力厂商正加大押注。

市场共识已经形成，AI推理的转折点已经到来。英伟达创始人兼CEO黄仁勋提出，AI推理的规模，很快将达到训练负载的十亿倍。

AI推理芯片企业曦望董事长徐冰认为，2026年AI推理计算需求将达到训练需求的4—5倍，推理算力租赁价格半年涨幅近40％。

市场调研机构IDC则预计，到2028年推理工作负载占比将达到73％。随着OpenClaw（龙虾）智能体应用规模化铺开，进一步推动算力需求向推理侧迁移。

头部厂商的动作高度一致：英伟达推出专为长上下文推理设计的Rubin CPX，并将推理芯片公司Groq纳入CUDA生态；在4月22日举行的Google Cloud Next 26大会上，谷歌发布第八代TPU，首次按训练与推理拆分产品线；华为昇腾950PR／950DT则以P／D（Prefill／Decode）分离架构先行一步，平衡推理成本与效率，其中950PR原计划于今年一季度上市，规模交付仍在推进，主要针对AI推理中的Prefill（预填充）和推荐场景。

种种动作表明，AI算力的重心，已从训练逐步切换至推理，国产算力厂商无法忽视这一变化。

AI推理新浪潮

AI计算大致分为两个层面，首先是对模型进行训练（training），整个过程可能耗时数天甚至数周；之后是训练出的模型响应实际请求，做出推理（inference）。训练是一次性、批量化的投入，对单卡峰值算力和集群规模敏感；推理则是持续性、碎片化的运营支出，对时延、并发和单位token（词元）成本更为敏感。

随着智能体在企业应用中加速渗透，推理计算一直是业界竞争激烈的方向。与传统对话式AI一问一答的调用模式不同，智能体在执行任务时往往需要多轮推理、工具调用和长上下文记忆，单个任务消耗的token数量可能是传统对话的数十倍。

随着智能体日益普及，市场对速度更快、能效更高芯片的需求激增。据业内测算，一个中等复杂度的企业级智能体工作流，一次完整执行消耗的推理算力，相当于数百次AI聊天机器人对话。

目前，英伟达旗下的GPU虽然占据训练市场，多数推理任务仍由CPU承担。GPU虽然速度快、功能强大，能够同时执行数十亿个简单任务，但其主要用途在于训练。

与此同时，推理所需的算力比GPU通常提供的要少，但需要更多内存。如果内存不足，芯片无法足够快地获取数据，就会形成瓶颈，迫使用户更长时间等待模型响应，而长时间等待是用户无法容忍的。

“我们发现用户对AI推理的时延预期其实是非常高的。”云服务厂商Akamai亚太区云计算架构师总监李文涛告诉21世纪经济报道记者，他介绍，以首token时延为例，游戏用户（尤其是大规模、多用户的在线游戏）往往希望在15毫秒拿到首token，在电商行业则约20毫秒，智能体自助服务约50毫秒，客服自动应答机器人等领域约100毫秒。

不同场景对时延的差异化要求，意味着单一规格的通用推理芯片难以同时覆盖全部负载，硬件厂商必须在吞吐、时延、成本之间做出取舍。

黄仁勋认为，推理token的价值已显著抬升，市场具备了按响应速度分层定价的条件。他以软件工程师为例称，这类高价值用户愿意为更低延迟的token付费以提升生产力。为此，英伟达将Groq纳入CUDA生态，在传统高吞吐量路径之外，开辟响应更快但吞吐量较低的推理细分市场，以覆盖对速度敏感的高端需求。

在国内，受地缘政治因素影响，高端GPU短缺，需求端则受到智能体、AI内容生成等新兴应用的快速拉升。随着AI需求激增与算力供给受限的矛盾加剧，市场正面临“等token”的窘境。近期，包括Kimi、MiniMax在内的多家主流大模型厂商，其API调用接连出现过载甚至服务中断的情况。

华泰证券表示，云服务进入涨价周期，算力资源稀缺性进一步强化。在此背景下，国产模型与国产硬件协同优化持续推进，国产加速卡与超节点方案进入密集落地阶段，国内算力景气度与国产替代进程均有望持续强化。

芯片门派“出招”

应对推理计算需求爆炸式增长，谷歌是最新作出回应的科技巨头。在Google Cloud Next 26大会上，谷歌发布第八代TPU的两款新品，面向训练的TPU 8t与面向推理的TPU 8i，这也是TPU历史上首次按训练／推理拆分架构。

其中，TPU 8i颇受外界关注，该芯片瞄准AI实时推理需求，发力多智能体协同等复杂应用场景，为实现更快的任务响应，TPU 8i着重优化了内存配置与片内数据吞吐能力，降低数据传输延迟，并提升了多芯片间的通信效率。

据谷歌介绍，得益于架构优化，TPU 8i在推理环节的性价比提升了近80％，这意味着在同等算力成本下，企业将能够支撑更大规模的AI并发调用需求。

谷歌云AI与基础设施高级副总裁兼首席技术官Amin Vahdat指出：“随着人工智能代理的兴起，我们认为，如果芯片能够根据训练和服务的需求进行个性化定制，那么整个社区将会受益。”

海外巨头动作频频，国产算力厂商亦紧跟技术趋势。观察来看，中国公司并未简单跟随海外巨头路径，而是结合自身的技术底座与国内应用场景，走出了满足本土需求的差异化发展道路。

目前，中国AI训练与推理需求正迎来爆发式增长，全国算力总量已跃居全球第二，全球占比超过30％。国际知名投资研究机构伯恩斯坦（Bernstein）指出，以华为昇腾、寒武纪思元系列为代表的国产AI芯片正加速崛起，行业地位持续攀升。预计到2027年，中国AI芯片的国产化率将从2023年的17％大幅增至55％。

技术上，华为在推理产品上体现了Prefill（预填充）－Decode（解码）分离思路。据华为在2025全联接大会上披露的路线图，昇腾950系列采用SIMD／SIMT混合微架构，FP8算力达到1PFLOPS、FP4算力达到2PFLOPS，搭载自研HBM（HiBL 1.0／HiZQ 2.0），支持从FP32到HiF4的多种数据格式。

其中，950PR主打推理中的Prefill阶段和推荐场景，搭配自研HBM HiBL 1.0，强调低成本和大规模部署的经济性。950DT则主打Decode阶段和训练场景，升级至自研HBM HiZQ 2.0，内存容量144GB、带宽达到4TB／s，面向对访存带宽要求更高的长文本推理和千亿参数模型训练。

AI推理计算分为两个主要任务：“预填充”即模型解释用户提示的过程，“解码”即模型逐字生成响应的过程。对于较大的AI模型，预填充通常是两个过程中较快的一个，而解码则往往特别慢。将两个阶段分别交由不同规格的芯片处理，理论上可以提升整体资源利用率，降低单位token推理成本。

同时，华为计划在2026年四季度发布Atlas 950超节点，支持8192颗昇腾950DT芯片，包括128个计算柜、32个互联柜，共计160个机柜，占地面积约1000平方米。相比英伟达NVL144，Atlas 950超节点的卡规模是其56.8倍，总算力是其6.7倍，内存容量是其15倍，互联带宽是其62倍。

华为轮值董事长徐直军表示，受制裁影响，单颗芯片算力与英伟达存在差距，但华为通过超节点互联技术弥补单芯片性能不足，目标是在集群层面做到世界领先。

寒武纪则强调训练与推理一体化的架构与生态。寒武纪在硬件端迭代至第五代MLUarch微架构，7nm思元590芯片集群FP16算力2.048PFLOPS，支持Chiplet异构集成与MLU－Link8卡互联，性能对标国际主流；新一代微架构及指令集持续研发，重点优化大模型训练推理场景。

软件端NeuWare平台实现“一次开发、多端部署”，兼容主流AI框架并开源工具链降低迁移成本，推理软件平台快速适配DeepSeek-V3.2等开源模型，降低迁移与迭代过程中的不确定性。

寒武纪的技术路线有两个关键支点。一是自研指令集，公司自2016年起已迭代至第四代商用指令集，同一套指令集同时支持训练和推理，覆盖云边端不同场景，这为其构建统一软件生态提供了底层基础。二是训推一体的软件平台Cambricon Neuware整合了底层软件栈，并与TensorFlow、PyTorch等主流框架深度融合，以缩短用户从模型研发到部署的周期。在客户侧，思元590已在互联网大厂的千卡级集群中商用部署。

除了华为和寒武纪，其他国产厂商也在推理赛道上展开差异化布局。摩尔线程等公司则围绕通用GPU路线持续推进，在推理场景中重点突破多卡互联和软件工具链领域的技术瓶颈；曦望等AI芯片企业则瞄准细分场景，提高效率降低成本，例如推荐系统、长上下文推理、端侧部署等，试图在巨头主导的通用市场之外寻找市场机会。

更关键的挑战在生态。CUDA经过近二十年积累，已构建起涵盖编程模型、核心库、分布式框架、优化工具、推理引擎和主流框架原生支持的完整体系，这也是英伟达最深的护城河。华为去年宣布CANN编译器和Mind系列套件于2025年底前完成开源，寒武纪也在持续开放NeuWare工具链，意图正是降低开发者迁移门槛。

从市场反馈看，DeepSeek、通义千问等开源大模型与国产芯片的深度适配，正成为打破CUDA生态壁垒的突破口，当头部开源模型在国产芯片上可以“开箱即用”，应用厂商的迁移意愿会显著提升。

“训练为王”终结：AI推理新浪潮，英伟达谷歌华为切换赛道

2026年04月23日 21:37 21世纪经济报道 21财经APP 彭新,实习生孙子彧

相关新闻

热文排行

财经日历

每日智库看点

关注我们

公告

“训练为王”终结 ：AI推理新浪潮，英伟达谷歌华为切换赛道

2026年04月23日 21:37 21世纪经济报道 21财经APP 彭新,实习生孙子彧

相关新闻

热文排行

财经日历

每日智库看点

关注我们

公告

“训练为王”终结：AI推理新浪潮，英伟达谷歌华为切换赛道