阿里自研CPU大规模应用 漫漫算力攻坚路仍未停歇

2022年11月07日 17:32   21世纪经济报道 21财经APP   董静怡
自研芯片大规模应用是中国云计算和芯片发展的重要标志

21世纪经济报道记者 董静怡 上海报道

11月3日,在2022杭州云栖大会上,阿里巴巴公布了自研算力体系新进展,其自研CPU倚天710已经在数据中心大规模部署,并以云的形式服务阿里巴巴和多家互联网科技公司,算力性价比提升超30%,单位算力功耗降低60%,成为中国首个云上大规模应用的自研CPU,实现算力攻坚重大突破。未来2年,阿里云20%的新增算力将使用自研CPU。

2021年云栖大会,阿里平头哥发布首颗为云而生的CPU芯片倚天710,该芯片针对云场景研发,同时兼顾了性能与易用性。经过一年的业务验证,倚天710已大规模部署并提供云上服务。

“阿里平头哥成功研发CPU芯片倚天710,是专为云计算应用而开发以云的形态来定义芯片并扩展到定义IT设备,现已大规模部署于阿里云的数据中心,使得单位算力的性价比大幅提升、功耗显著下降,这是中国云计算和芯片技术发展的重要标志。 ”中国工程院院士邬贺铨表示。

过去十三年,阿里云在操作系统、数据库、存储、网络和芯片等技术领域持续深耕并取得一系列重要成果,是国内唯一一家拥有完整自研软硬件技术体系的云服务商。

“云计算的发展进入了全新的阶段,未来十年,软硬件一体化的自研计算体系是云服务商的立身之本,只有在核心技术和产品的研发上持续创新才能抢占定义权。”阿里云智能总裁张建锋表示。

问世一年,倚天710落地

2021年云栖大会现场,阿里巴巴旗下半导体公司平头哥发布自研云芯片倚天710,该芯片为云而生,是云计算产业和传统半导体产业融合的新产物,同时兼顾性能与易用性,可以满足云上用户的多样性计算需求。

跟之前发布的AI推理芯片含光800不同,倚天710是一颗通用服务器CPU芯片,它可以提供通用算力,负责接收、处理、运算服务器计算机内部的所有信息,它的难度要远远高于AI推理芯片。

如果将专用芯片比作负责某项能力的神经元,通用芯片则是整个大脑。长期以来,这一核心技术主要掌握在Intel、AMD等传统半导体公司手中AWS。由此来看,倚天710的发布,无论是对平头哥还是阿里云来说都意义重大。

更重要的是,平头哥不仅攻克了研发这一难关,还创造了多项技术上的突破。为解决云计算高并发条件下的宽带瓶颈,倚天710针对片上互联网进行了特殊优化设计,通过全新的控流算法,有效缓解了系统堵塞,从而提升了系统效率和扩展性。在SPECInt2017基础测试平台上,倚天710的跑分可达到440分,其性能超出业界标杆20%,能效比优于业界标杆50%。

据悉,该芯片集成高达600亿晶体管,内含128核CPU,最高主频可达到3.2GHz,已经超越了大部分的CPU。不仅如此,该芯片还兼容最新的DDR5、PCIe 5.0等技术,有效提升芯片的传输速率、适配云的不同应用场景。

一年后的云栖大会上,阿里云首次展现了倚天710和CIPU、飞天操作系统完美协同的成果,倚天710已大规模应用,成为中国首个云上大规模应用的自研CPU,在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升超30%;阿里云提供丰富的生态工具,支持全应用生态适配,0代码修改即可完成主流业务迁移。

目前,倚天710云实例已应用于阿里巴巴集团核心业务,并服务科学研究、智能手机行业和多家知名互联网公司。2021年双11期间,天猫双11核心交易系统平滑迁移至倚天710云实例,算力性价比提升30%;汇量科技广告推理业务使用倚天710云实例,性能和网络带宽双双提升,性价比提升40%以上。

汇量科技首席人工智能官朱小强表示:“随着在线推理模型不断升级,我们对CPU性能和内网带宽要求更高,倚天710云实例满足了我们业务升级的需求,实现了降本与增效。”

过去十三年,阿里云在操作系统、数据库、存储、网络和芯片等技术领域持续深耕并取得一系列重要成果,是国内唯一一家拥有完整自研软硬件技术体系的云服务商。“自研芯片大规模应用是中国云计算和芯片发展的重要标志,希望以阿里云为代表的中国云计算企业,推动中国技术成为国际标准,让计算像水电气一样普惠大众。”邬贺铨表示。

阿里十三载算力攻坚路

数字经济时代,万事万物都在向算力要生产力,算力正在变成水、电一样的公共资源。根据《2021—2022全球计算力指数评估报告》,算力指数每提高一个点,就会给数字经济带来3.5‰的贡献,推动GDP提高1.8‰。过去,衡量一个国家综合国力的指标有粮食产量、能源储量、工业实力等,而未来,算力无疑将成为核心生产力,对社会经济发展影响至深。

过去十几年,以阿里为代表的互联网企业一直在算力攻坚的路上。2009年,阿里巴巴成立阿里云,并投入研发自研云操作系统飞天,这是阿里巴巴探索算力的起点,拉开了中国自研云计算操作系统的序幕。飞天操作系统用分布式架构替代传统IOE架构,不仅解决了阿里巴巴业务高速发展带来的算力挑战,也让算力成为一种可在线获取的公共服务。

 在这之后的五年,阿里云实现了一系列世界级突破。2013年,阿里云在全球范围内首次突破单一集群5000台服务器规模(飞天5K),并率先对外提供这一能力。此后,飞天操作系统成功支撑了十多年双11和12306春运购票等极限并发场景。

 随着云计算应用规模不断扩大,阿里云打破单纯的软件创新模式,开始深入数据中心内部做体系化创新,以云的形态来定义IT软硬件体系。在数据库方面,阿里云用开源MySQL替代传统Oracle后,进一步推进自研之路。2017年,阿里云发布首个云原生数据库PolarDB,计算能力最高可扩展至1000核以上,性能比开源MySQL高6倍。近几年,阿里云连续进入Gartner全球数据库领导者象限 。

2017年,阿里云推出第一代神龙架构,通过软硬一体化技术来提高云计算的性能输出,实现了性能的0损耗,首次让云计算的算力潜力彻底释放。如今这一架构已升级为全新的云基础设施处理器CIPU,可替代CPU来管理和加速计算、存储和网络资源,在飞天和CIPU的加持下,PolarDB数据库的全局一致性读性能提升10倍。

这些核心技术也加速了智能计算的发展。2022年,阿里云推出飞天智算平台,基于底层网络、计算等核心技术的突破,可以为人工智能、生命科学、医疗制药、自动驾驶等领域的企业提供更高效的智能计算服务。数据显示,飞天智算可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。

技术上的连续突破,推动了云计算产业的快速发展,原生长在云平台之上的应用不断涌现,全面上云逐渐成为企业的核心战略,而全球云计算的产业规模也迫近万亿美元。

云计算重塑算力体系

 如果说云计算的第一个十年是由规模驱动软件技术的发展,那么今天云计算则进入了一个全新的阶段。去IOE之后沿用下来的算力体系正在迎来新一轮的变革,AWS、阿里云等主流云厂商率先启动了新型硬件和芯片的研发。

 2018年,平头哥成立,致力于打造端云一体的芯片产品,阿里巴巴的算力体系再一次得到补强。次年,阿里巴巴第一颗芯片含光800问世,这是一颗为AI场景深度定制的芯片,进一步提升了AI场景计算的效率,并逐步应用图像识别、搜索推荐等场景。

与此同时,阿里巴巴也在向更高难度的算力发起挑战。2021年,阿里巴巴发布首款通用CPU芯片倚天710。该芯片为云而生,是云计算产业和传统半导体产业融合的新产物,同时兼顾性能与易用性。在本届云栖大会上,阿里云宣布自研CPU倚天710已大规模应用,阿里云未来两年20%的新增算力将使用自研CPU。这不仅对中国芯片产业意义重大,更是云计算重塑算力体系的重要一步。

面向正在爆发的万物互联终端,阿里巴巴聚焦研发RISC-V架构处理器,这一架构被认为是继ARM、x86架构之后,中国芯片产业的第三条路。早在2019年7月,平头哥就发布当时业界最强性能RISC-V处理器玄铁910,这一产品成为业界基于RISC-V架构打造高性能芯片的风向标,让RISC-V成为5G、人工智能、网络通信、自动驾驶等新兴领域的新选择。目前,平头哥已推出多款产品,并领导了11个重要技术方向。

面向更长远的计算需求,阿里达摩院还在持续布局量子计算,探索颠覆传统计算的潜力。2018年5月,阿里发布业界最强量子电路模拟器“太章”,利用阿里巴巴集团计算平台的算力,模拟了谷歌当时“量子霸权”计划的电路,重新定义了“量子霸权”的界限。

2022年3月,基于新型超导量子比特fluxonium,量子实验室成功设计并制造出两比特量子芯片,实现了单比特操控精度99.97%,两比特iSWAP门操控精度最高达99.72%,取得此类比特全球最佳水平。

2022年5月,阿里公布第四季度及2022财年业绩,阿里云EBITA利润从2021财年的亏损22.51亿元改善为2022财年的盈利11.46亿元,为成立13年来的首次年度盈利。云是磕出来的,芯片也一样,未来以阿里巴巴为代表的企业需要不断在前沿技术上攻坚克难,为未来的算力体系打下基础。

关注我们