全球芯片行业近年来技术、产品、市场的变革,都与摩尔定律的放缓直接相关。AI芯片就是典型代表,当传统的CPU、GPU依靠摩尔定律带来的芯片性能提升不足以满足AI、大数据的需求时,大量的AI芯片应运而生。继AI芯片之后,DPU(Data Processing Unit)芯片又成了各大芯片巨头、互联网巨头、初创公司争相研发的新产品,也是近年来资本热衷投资的方向,所有的参与者都希望在市场爆发前抢占先机。不同于CPU和GPU,DPU是典型的应用驱动型芯片,传统芯片巨头有丰富的芯片设计经验但对应用场景的理解不够深入,互联网巨头深刻理解自身业务需求但芯片设计经验不足,初创公司各有所长。多位业内人士告诉雷锋网,DPU芯片市场将在2-3年后爆发。在全新的DPU赛场,谁能脱颖而出主导市场?探讨新鲜的DPU,不妨从命名开始。DPU的概念最早由美国一家名为Fungible的初创公司提出,但将DPU概念带入大众视野的是英伟达。在Fungible提出DPU概念的2019年,英伟达以69亿美元收购了Mellanox,一年后的2020年,英伟达基于Mellanox的产品发布了DPU,DPU的概念一炮而红。今年6月,英特尔公布了IPU(Infrastructure Processing Unit,基础设施处理器)的愿景。英特尔公司数据平台事业部首席技术官Guido Appenzeller对雷锋网表示,“DPU和IPU在功能上没有根本性差别,只是命名不同。我个人认为,IPU这个名称要好很多,因为IPU的作用就是处理基础设施功能,这是其与众不同之处。”“IPU和DPU都有其合理性,目前看将两者画等号问题不大。不过我更倾向于使用DPU的命名。”中科驭数CEO鄢贵海表示,“如果将处理器按照结构划分,可以分为以控制为中心和数据为中心两大类,DPU是以数据为中心,强调的是吞吐量、运算的高效性等,以DPU命名也比较贴切。”中科驭数是2018年成立于北京的DPU初创公司,在7月底宣布获得了数亿元的A轮融资。2020年刚成立,在今年7月宣布获得数千万元Pre-A轮融资的DPU初创公司大禹智芯也更倾向于DPU的命名方式。大禹智芯CEO李爽说:“IPU更多是从应用场景的角度命名,DPU则是描述产品的功能,如果类比CPU和GPU的命名方式,我觉得DPU更合适。英特尔用IPU也很合理,毕竟这类产品还没有形成标准,大公司想要自己定一个标准,而且,IPU中也包含intel的首字母。”无论是IPU还是DPU,都是全新的命名,那全新的命名代表的是全新的产品吗?李爽和Guido Appenzeller认为属于全新的产品。鄢贵海则认为DPU只能视为全新的商品,实际上DPU的技术已经发展了很多年。“DPU是一个I/O密集型专用处理器,早在40年前,IBM也有功能类似的产品,他们叫做I/O控制器。因此,DPU的技术要素之前已经存在,只不过当时的重要性没有凸显,如今是通过DPU这样一个产品来进行集中体现。”鄢贵海解释。李爽提出,“我们不应该把重点放在寻找DPU的定义上,而应该更多关注DPU要解决哪些问题。”“DPU诞生的背景是带宽与计算性能的增速失调。CPU的性能从5-10年前每年30%的增幅,到三年前大概只有每年不到3%的性能增幅。而网络带宽每年依旧还有35%左右的增长。”鄢贵海指出:“处理性能和带宽增速的比例从原来的大概1:1,变成了现在的1:10左右。”“当有10倍以上的差距时,就需要思考新的架构。因为原来的架构没办法进行平行扩展,这时候就需要专用的系统。所以DPU不能简单讲是一颗芯片,它是一个系统。”李爽认为,“DPU实际上是架构转移。”Guido Appenzeller从另外一个维度去解释IPU的诞生。“传统数据中心内只有一个主人。而在云中,工作负载和系统则分别属于租户和云系统提供商,我们看到这两种架构开始分离。”他说,“IPU是一个新兴的架构,专门运行云服务提供商的软件,租赁这些服务器的租户的软件则在CPU上运行。”用一个形象的比喻来解释传统数据中心与云服务提供商数据中心架构的不同,传统的数据中心就像是家庭场景,客厅、厨房、餐厅都在一个大的区域内,有一个明确的主人。而云服务提供商的数据中心则像是酒店,客房、餐厅是分开的,酒店客人和工作人员也同样分开。Guido Appenzeller认为IPU带来了三个显著优势,首先,加入IPU的架构可以清晰地区分租户区和云服务提供商区。其次,可以把基础设施功能转移到专门优化的IPU上,实现性能的大幅提升。最后,IPU把数据中心变成了无磁盘架构,无需再给每台服务器配备磁盘。
根据Facebook给出的数据,基于微服务的现代应用占用了大量的CPU循环,从31%-83%不等,比如在Web应用中,83%的CPU循环被用于开销,包括传输、压缩、解压缩、加密等功能。如果把这些开销从CPU转移到IPU,云服务提供商就可以把整个CPU租给客户。
鄢贵海也表示,数据中心东西流量与南北流量大约是4:1,东西流量统计的是数据中心节点之间流量,这表明底层基础设施之间消耗的计算资源远大于对外提供服务消耗的资源。目前来看,网络卸载能力是客户对DPU最刚性的需求。李爽认为,目前DPU有三种技术架构,一种是Arm多核或MIPS多核,一种是CPU+FPGA的架构,一种是ASIC SoC的架构。前两种已经被验证过,优劣势也比较明显。多核架构具有通用性,整个技术栈偏软件为主。Guido Appenzeller只将IPU分为两类架构,第一个是专用ASIC IPU;第二个是基于FPGA的IPU。“每一类都有自己的优势和劣势。基于FPGA的IPU能快速实施新协议,应对不断变化的要求或新协议。专用ASIC IPU可以实现性能和效率的最大化。“在美国和中国,六大云服务提供商目前使用基于FPGA的IPU。随着带宽变高,我们看到他们缓慢地转向专用ASIC IPU。因为存在很多专利协议,所以不会发生快速转变。” Guido Appenzeller指出IPU发展的趋势。鄢贵海也认同这个趋势,“Arm/MIPS多核的方式在实际的应用系统中未必能真正发挥优势,FPGA的方式可以在接口上省去一些功夫,但重要的部分没有突破,我觉得是避重就轻。ASIC的限制条件更少,能进行更多的定制,实现更大的差异化,差异化越大才能有更大的优势。”“通过与客户的沟通我们发现,市场对于DPU的认可度非常高,但还没有一款很好的DPU能够满足客户需求,大家都在期待一款好的产品。”李爽指出市场都在期待一款优秀的DPU。这里需要强调的是,虽然目前IPU/DPU与智能网卡(SmartNIC)在形态和功能上有一些类似,但他们本质上是不同类别的产品。Guido Appenzeller解释,IPU 具有本地控制平面,这意味着IPU可以控制CPU,而SmartNIC更多的是卸载,由CPU管理,处于CPU的控制系统中。正如对于AI芯片的评价还没有公认的评价体系,想要评价尚在探索阶段的DPU也并不容易。“如果评价AI芯片的性能已经很困难,我觉得评价DPU的性能会更困难。由于DPU本身功能的多样性,导致我们去衡量它的时候需要的不是一个指标而是一套完整的指标。”鄢贵海指出。比如,衡量DPU的网络加速功能,网络带宽是关键指标。DPU支持虚拟化,OVS的转发容量又是关键。考量DPU的数据压缩/解压缩,加密和解密性能,在非对称的性能中选择哪一个作为关键指标又是问题。李爽指出,无论如何,DPU的处理性能一定要大于端口的能力。Guido Appenzeller说:“设计一款出色的 IPU有很多挑战。我认为最难的部分是获得加速器和流水线,因为它们负责做大部分工作,能够确保具有非常高的性能、非常低的延迟,特别是对大规模云提供商影响最大。”当然,对于一款芯片来说,物理指标,包括性能、功耗和面积依然可以作为衡量一款DPU的重要维度。但更重要的衡量维度是整个DPU系统,因为DPU是典型的场景驱动芯片。“CPU、GPU这些传统的芯片都有标准的框架和技术定义,芯片设计公司按照定义去设计芯片,到了用户端最困难的其实是驱动和软件框架。所以最后会发现在芯片硬件性能相似的时候,比拼的是硬件和软件的衔接。”李爽进一步表示,“DPU是一个全新的系统,没有参考设计。这时候只有充分理解客户的需求,从底层硬件架构到软件设计出一套新型的芯片系统满足客户需求是非常大的挑战。”“要设计一款有竞争力的DPU,一定要对场景有非常深刻的理解。”李爽强调。对于这一点,英特尔已经用产品证明,其首款产品是一款200G的ASIC IPU,是与一家顶级云服务提供商共同合作开发,实现更高的性能,包括数据包处理,安全性和隔离性等。鄢贵海也说:“像DPU这样应用驱动的芯片,其性能最终要体现在应用侧。要在应用侧发挥出DPU领先的性能,我认为软件会成为一个重要的瓶颈。”“这一点我们在之前已经感受到,在做网络二、三层协议卸载的时候,为了能够充分发挥性能,几乎要重构底层的BSP网络协议,但同时要保证API的不变。”鄢贵海说,“整个DPU系统的性能要提升,不仅要对应用层有足够深度的了解,还需要有包括网络、虚拟化、存储、高速总线协议方面的专业知识。因此需要一套非常好的设计方法和流程,将具备不同设计能力,对不同领域有深度了解的人和设计整合起来。”“英伟达DPU的软件栈DOCA是在复制了他们在GPU+CUDA领域的成功。客户有学习和迁移的门槛,也是需要慎重考虑是否采用的选择。”这是李爽和鄢贵海的共识。因此大禹智芯和中科驭数都是通过在软件层面投入大量的工作,取不同客户需求的最大公约数提供相应功能,在API层面尽量兼容客户已有的习惯,最大化降低客户的使用门槛和迁移成本。“目前我们还没有准备好谈论软件,今年晚些时候会有更多相关消息。” Guido Appenzeller表示。有意思的是,此次与雷锋网深度交流的三家DPU提供商,硬件路线都各有特色。英特尔是典型的传统芯片巨头的代表,他们拥有ASIC IPU和FPGA IPU两条产品线。中科驭数选择的是ASIC IPU的路线。大禹智芯采用Arm、FPGA、ASIC根据场景不同组合的路线。ASIC一般而言是在牺牲一定的灵活性的前提下获得高效处理能力。对于采用ASIC IPU路线的中科驭数,鄢贵海对灵活性的看法是,“如果分工过于细致但共享度不够,可能会损失效率,但如果有足够的共享程度,分工带来的潜在灵活性损失会被极大弥补,这一点我倒不是特别担心。而过分追求灵活性,也可能丧失DPU异构计算的潜力。”大禹智芯坚持DPU的通用性。李爽解释:“我们的目标是构建面向云计算市场的通用DPU。所以在软件可以复用,硬件采用多种方案。这实际也是降低风险的方式,先配合上层应用定义好软件,在这个过程中不断提取对硬件的定义,减少因为对场景理解不够透彻可能导致的芯片设计偏差。”据悉,大禹智芯会使用Arm的IP以及第三方的FPGA,ASIC则是自己的芯片团队设计。至于最终的落地情况,中科驭数FPGA版本的DPU已经与上交所、华泰证券、中泰证券、国泰君安等十余家头部客户建立合作,其产品的性能、稳定性已经在实际应用场景中验证。即将推出的下一代产品会向数据中心、5G边缘计算等领域扩展。大禹智芯首要的目标市场与英特尔一样都是云服务提供商。李爽说,“我们的目标客户是那些对于DPU的需求量不小,但又不够支撑其自研的公司。这样对于客户和我们试错成本都比较低。我们的策略是不做定制,要做DPU产品服务提供商。”大禹智芯、中科驭数都把自己定位为中立的DPU供应商提供领域通用的芯片,核心的原因还是看到了这一市场未来的前景。头豹研究院预测,中国DPU市场规模预计将在2025年达到37.4亿美元。全球DPU市场规模2025年预计将达到135.7亿美元。
中国DPU市场规模,2020-2025年预测,来源:头豹研究院