“东数西算”核“芯”问题有待新技术突破
随着“东数西算”国家战略在2022年2月启动,全国一体化算力网络国家枢纽节点的建设步伐进一步加速。算力网络基础设施的普及是智能时代标志之一,而高效的算力资源层就是算力网络这座大厦的根基,根基的牢靠程度将直接影响算力网络愿景是否能实现。
现有的底层处理芯片、数据传输等物理层的产品和技术能否支撑“算力网络”这个构想?笔者认为,算力网络建设的最大挑战除了资源整合、服务创新,还有待在核心技术方面取得新突破。
现有算力资源尚难支撑算力网络愿景
直观地理解算力网络,其包含两个关键部分:一是“算力”,二是“网络”。然而,“算力网络”的效力不应该是二者的简单加和,而应该是“倍乘”,通过网络对算力进行价值放大,承载更多的应用。缺乏算力的网络只能作为数据传输网,而缺乏网络的算力的使用价值也将大大降低。
根据梅特卡夫定律,一个网络的价值等于该网络内的节点数的平方。对于算力网络,宏观来看,“节点”包括各种算力中心和服务的终端应用。然而,新酒还需新瓶装。现有的计算、网络、存储基础设施,可能还不能完全支撑算力网络的愿景成为现实。
研究表明,从1940年到2010年的70年间,计算能耗效率随时间呈现稳定的指数增长,大约每1.6年这个效率指标就会加倍。计算效率的持续性指数级提升,使得通过线性计算节点的规模和能耗水平增长即可获得指数级的算力。
相比于算力增速而言,数据量的增速也毫不逊色,甚至已经形成赶超之势。从2005年至今,数据量大约每两年翻一番。然而,摩尔定律从2015年开始放缓,单位能耗下的算力增速已经逐渐与数据量增速拉开差距。现有的网络化算力可以部分解决利用率不均衡的问题,但是并不能从本质上改变算力增速放缓的局面。
应用层算力与基础层算力
为了便于分析算力相关的核心基础技术,我们把算力划分为两大类:应用层算力和基础层算力。其中应用层算力指用于执行业务层应用的算力,例如视频解析、数据查询、路径规划、图像渲染等;基础层算力指用来做资源池化、数据转发、压缩存储、加密解密、文件系统、网络功能虚拟化等基础层负载的算力。
预计应用层算力的提升主要来自于专用服务器的采用,基础层算力的提升主要得益于DPU(数据处理单元)、5G移动边缘计算技术、超高速光电混合网络技术、NVMe-oF技术等的采用。
基础层算力不仅应该帮助提升输入输出的带宽、降低延迟,还要维持访问方式的一致性、匹配应用的需求。这些复杂的需求非常依赖于更灵活的网络可编程性、更高效的硬件虚拟化技术支持。从算力网络“匹配应用需求”的角度来看,软件定义网络、软件定义存储、软件定义加速器等一系列“软件定义”技术路线还有很大提升空间。
算力网络底层的三大技术突破
从以上分析来看,预计算力网络的基础层将有如下三方面的技术突破。
其一,以专用架构延续算力的指数级提升。
简言之,如何增强应用层算力。短期来看,专用体系结构的广泛采用有望维持2~3个数量级的算力提升潜力。这也是领域专用架构(DSA)技术路线得到重视的原因。从技术成熟度看,通用GPU(即GPGPU)、面向深度学习的训练和推理的通用人工智能(AI)芯片,最有可能在短期内发挥算力增强的作用。有报告预测,装备GPGPU和AI芯片的AI服务器预计到2025年将达到算力总支出的25%。
其二,通过DPU释放应用层算力的同时,扩容基础层算力的管道。
基础层算力的核心功能之一是构建算力流通的“管道”。随着DPU技术逐渐成熟,大量原本在服务器上运行的基础层负载可以被卸载到与服务器CPU直连的DPU上,保持网络特性的功能将不再由服务器端的CPU来维护。DPU的存在将本地物理资源虚拟化,也将远程访问本地化。DPU开始承载基础层算力的角色,并且是在不改变现有路由器和交换机的前提下。此外,DPU的出现也使得网内计算的成熟度得到进一步提升。
其三,通过数据面代理赋能无服务器服务和云原生应用。
随着云原生微服务架构的普及,“服务网格”作为微服务间通信的专用基础设施层,可在微服务架构中实现可靠、快速和安全的服务间调用,同时可提供出色的可观测性、流量控制能力和安全保障。但是,服务网格也增加了网络的复杂性。服务网格能力的发挥依赖于数据面代理,可以通过DPU实现服务网格数据面代理,进而解决CPU和内存的消耗和微服务间访问延迟的问题。
综上所述,算力网络是实现算力基础设施化的一个重要载体,是一整套从技术到运营的系统性技术综合的成果。如果成功落地,“新瓶装新酒”,必将有力促进我国数字经济的跨越式发展。
目前,我们在构建算力网络上有较好的基础,但是在技术层面还面临一些关键挑战,特别是核心算力芯片的自主率过低,核心光电器件主要依赖进口。在“东数西算”、构建全国一体化算力基础设施等相关政策的引导下,突破算力网络底层的核“芯”问题,利用好巨大的“盘活存量、优化增量”的机遇,早日让“算力”成为普惠大众的生产力。