布局万亿智能市场!走近Xavier与Jetson AGX
英伟达在人工智能领域投入的资源相当巨大,毕竟人工智能已经被业界认为将极有可能是下一个万亿级别的市场。2018年下半年,英伟达发布了全新的Xavier处理器,随后又发布了以Xavier处理器为核心的Jetson AGX计算平台。作为一款面向人工智能、机器人、自动驾驶等市场设计的产品,Xavier处理器和Jetson AGX在内部设计和架构上有哪些独到之处呢?今天本文就和你一起来了解这些内容。
英伟达在处理器研发上并不激进,尤其是通用处理器。自从Tegra退出移动平台之后,使用Tegra的平台除了一些特殊设备外,主要就是人工智能平台了。英伟达在人工智能市场上投入很多,在深度学习方面更是独树一帜。为了进一步提升自己在人工智能、机器人、自动驾驶等方面的影响力,英伟达在2018年8月份发布了新的Xavier处理器,在2019年初又推出了Jetson AGX平台,希望能够为相关应用和市场带来更强的性能和更出色的应用体验。作为英伟达自研的专门用于人工智能相关平台的处理器,Xavier究竟能带来怎样的强悍性能呢?
Xavier:来自英伟达的巨无霸
英伟达在处理器研发上已经有一定的积累了,面向移动设备的Tegra系列处理器在诞生之初还是颇受市场看好的。不过Tegra处理器已经数年没有更新,英伟达在人工智能相关产业推出了新的品牌Xavier。从品牌布局来看,似乎Tegra不再面向To B市场,Xavier才是这个市场的主力产品。
Xavier是英伟达迄今为止推出的规模最大的SoC芯片。其内部包含了90亿晶体管,采用了台积电12nm工艺制造,芯片面积高达350平方毫米。350平方毫米是什么概念呢?要知道被人们称之为大核心的GP102也就是TITAN Xp的核心面积也不过471平方毫米,更低端一些的GP104核心面积也仅仅只有310平方毫米。因此,从晶体管数量、芯片面积等多方面因素综合衡量来看,Xavier都堪称ARM SoC中的巨无霸。
▲Xavier芯片正面照片
芯片面积巨大,证明其期望达到的性能指标也非常高。这一点可以从Xavier的架构布局得知。Xavier内部主要由两个大的部分组成,其中一部分是8核心的Carmel架构的CPU,另一部分是Volta架构的GPU。
CPU方面,8个Carmel核心分为4个集群,每个集群中有一堆Carmel CPU,每个集群都由独立的时钟单元控制,并且每个集群内部的2个CPU会共享2MB缓存。Xavier的CPU部分4个集群共享4MB L3缓存。目前英伟达还没有给出任何有关Carmel架构的详细信息,只是笼统地称其为10-wide的superscalar架构,这一点和之前的Denver架构几乎如出一辙,另外,Carmel架构支持ARMv8.2指令集,也包括对RAS指令集的支持。
▲包含诸多特性的Xavier芯片
▲Xavier采用了英伟达自研的Carmel CPU
GPU方面,Xavier包含了4个来自Volta架构的TPC,每个TCP包含2个SM,总共8个SM包含了512个CUDA Core或者ALU通道。Xavier的GPU部分不仅仅包含传统的CUDA Core部分,还加入了Volta架构上的Tensor核心,使其拥有了执行深度学习计算的能力。Xavier的Tensor核心可以执行FP16或者INT8的张量计算,其性能在INT8下可达22.6 DL TOPS,或者11.3 FP16 TOPS。此外,CUDA核心执行FP16和FP32计算时,算力为2.8TFLOPS和1.4TFLOPS。
▲Xavier中使用的GPU来自桌面的Volta架构
▲Xavier芯片的不同部分
除了CPU和GPU外,英伟达还为Xavier设计了DLA模块,也就是深度学习加速模块,每个模块中包含2个DLA核心。这个模块的功能主要是专精于深度学习计算加速,就像华为海思处理器或者苹果在A12中搭配的AI核心那样,英伟达宣称这个模块拥有在深度学习计算方面出众的性能功耗比。英伟达的DLA性能为INT8下11.4 DL TOPS或者FP16下5.7 DL TOPS。
▲Xavier加强了深度学习能力
由于目前计算机视觉功能越来越重要,因此Xavier也加入了PVA向量处理单元,也就是可编程视觉加速器,这个模块的作用是专注于视觉相关的处理,能够比GPU或者DL模块更快、更好地处理对象检测等视觉处理中的基本任务。每个PVA向量处理单元都被设计为一次可执行7个宽度的VLIW架构,包含2个标量、2个向量和3个内存指令。每周期PVA可以完成8个32bit、16个16bit或者32个8bit的数学操作。
英伟达设计了2个PVA模块,每个PVA模块中包含一个用于控制和配置的Cortex-R5核心,2个向量处理单元,2个专用于数据管理的DMA单元。PVA拥有自己的指令缓存和数据存储单元,可以独立操作。
Carmel架构:来自Denver的力量
Xavier处理器CPU部分的研发代号为Carmel,并采用了和目前市场上其他ARM处理器完全不一样的设计方法,虽然英伟达没有公布有关Carmel的详细资料,但是从一些宣传用语上,人们还是可以发现Carmel和Denver架构的继承关系。
说起Denver架构,熟悉英伟达处理器发展历史的用户都应该会有一定的印象。这个神秘的架构在2011年随着Project Denver计划宣布。Project Denver面向高性能移动设备或者其他针对性能有一定要求的场合而提出的一个特别的研发计划,英伟达投入了数百个业内顶尖处理器工程师进行开发。
▲Denver架构可以说是英伟达开始尝试自研CPU架构的开始
经过数年的努力,2014年,Project Denver的最终产品就是代号为Denver的处理器架构,被应用在Tegra K1处理器专为谷歌Nexus 9推出的版本上。这个处理器没有进入手机市场,其移动产品也极为稀少,Nexus 9可能是市场上能够轻松买到的唯一产品了。
英伟达宣称Denver架构是首个7-wide的超宽处理器架构。在Denver的同时代产品中,Cortex-A15采用的3发射,Cortex-A12采用的是2发射,甚至到多年以后的Cortex-A73也仅仅是2发射产品,只有最新的Cortex-A76采用了4发射来扩大前端解码能力。因此,Denver架构的所谓7发射方案是很值得思考的,这已经远远超出了当时业内同档次处理器的水平。
最终,在各种测试和业内研讨中,人们发现Denver并没有什么超脱时代的能力,在处理器前端的解码引擎方面,Denver只有2个解码端,因此它还是一个传统意义上的双发射处理器,但是在随后的指令处理方面,英伟达巧妙地利用了动态指令优化技术,在双发射的硬件解码端后配备了一个高达128KB的指令缓存,将经过“执行顺序优化处理”后被解码指令存放在这里,然后将其打包成一个VLIW指令包一次性传输给后端处理单元,一次可以对应内部的7个执行单元。这很可能就是英伟达宣称Denver采用的是7-wide前端或者“7-way Superscalar”的真实过程。
随后在Tegra X2也就是用于DRIVER PX2的SoC上,英伟达推出了Denver 2架构。Tegra X2采用的是2个Denver 2架构的核心搭配4个Cortex-A57组成异构系统,主要市场瞄准的是智能行业,在功耗控制上非常宽松。此外,Jetson TX2也使用了这款SoC。不过英伟达官方对其具体性能和架构依旧没有任何的表示。
在Xavier中,英伟达集成了全新的自研Carmel CPU并再次宣称这款处理器拥有10-wide的处理器宽度。显然,和之前的数代处理器一样,这里的10-wide宽度并非指前段硬解码单元的数量,而是经过重整优化后指令数量,也就是说,Carmel相对于7-wide的Denver处理器而言,更有可能是进一步扩大了后端执行单元的数量,前端解码单元部分可能维持了双发射或者最多3发射的规格,这也是目前ARM主流处理器的标准配置了。
在其他的一些规格方面,Xavier也有详细的规格列出。内存方面,Xavier内部集成了八通道、256bit的LPDDR4X内存控制器,每个通道最大可支持32bit带宽的LPDDR4X-4266内存,最大带宽可达127.1GB/s。Xavier支持PCIe 4.0,最多可提供PCIe 4.0 x8的配置方案,并且可以拆分成x4、x2、x1等多种规格。Xavier还支持3个USB 3.1和4个USB 2.0,能够外接大量的设备比如更多传感器。
▲Denver架构采用了特殊的VLIW并行的方法,和目前主流的ARM处理器存在差异。
另外,Xavier还支持NVLINK总线,可以和英伟达的GPU相连且提供I/O一致性功能,外接GPU能够加大Xavier在深度学习和视觉处理上的能力,当然整体功耗也会升高。
在摄像头方面,Xavier能够支持16 CSI通道,传输速度在DPHY 1.2规格下为40Gbps,在新的CPHY 1.1规格下为109Gbps。显示输出方面,Xavier支持4个DP,也支持HDMI 2.0、eDP等接口,最多可输出4k@60Hz图像并支持DP HBR3数据速率。
扩大Xavier的应用范围
Jetson AGX Xavier上线
在Xavier处理器推出之后,另一个重要问题就凸显出来了,那就是和Xavier相匹配的系统如何获取。毕竟Xavier是一个处理器,不可能直接利用这个处理器就上手进行操作。而且和GPU等产品不同的是,Xavier面向的是一个系统,并且目前没有以大规模商业化的形式出现,第三方厂商也不太可能基于Xavier推出什么系统,因为赚不到钱。
那么,如何为这个SoC建立起生态链支持、如何依附Xavier进行开发和研究,就需要英伟达推出相应的开发模板或者开发系统,这样才能方便研发人员进行操作。在这种情况下,英伟达推出了Jetson AGX Xavier,这是一个基于Xavier开发的成熟的小型计算机或者嵌入式系统,具有几乎所有的接口、电源和功能模块,用户可以利用Jetson AGX Xavier快速上手,了解并利用Xavier的功能。
从外观上来看,Jetson AGX Xavier是一个被黑色散热片包围的小盒子,周围用有各种接口。外部能直接看到的接口包括网络、HDMI、USB 3.1、连接摄像机的MIPI CSI-2以及40针GPIO接口等。
▲Jetson AGX Xavier的外观,黑色的方盒子。
另外值得一提的是,Jetson AGX提供了一个PCIe 4.0 X16插槽,以及M.2 PCIe X1插槽,这在一般的ARM架构的开发板上非常少见,因为由于PCIe控制其复杂且占地面积较大,一般的ARM SoC都没有额外的PCIe通道可以使用。在电源方面,Jetson AGX提供的是64W LiteOn电源,使用19V供电,外观和笔记本电脑充电器基本一致。
▲Jetson AGX Xavier相关架构和连接能力
在规格特性方面,英伟达宣称Jetson AGX Xavier是全球首个专门为智能机器人、边缘计算等应用设计的平台,适合部署在不需要人工干预的场合,支持包括视觉里程、传感器融合、定位、障碍物检测、路径规划等功能。另外值得一提的是,Jetson AGX Xavier支持三种功耗模式,分别是10W、15W和30W,用户可以根据自己的计算场景选择不同的功耗配置。
▲Jetson AGX Xavier具有强大的AI计算能力
性能
远超上代产品
在Xavier的发布会上,英伟达给出了有关Xavie和之前TK1、TK2的详细测试对比,包括RetsNet-18 FCN全卷积网络测试、推理能效、吞吐能力等。本文只简单摘取一部分内容。
在RetsNet-18 FCN测试中,英伟达使用了一个全高清模型,分辨率为2048×1024,测试目的是语义分割,用于检测自主计算机的感知、路径规划和导航能力等。测试对比对象是Jetson AGX Xavier和之前的Jetson TX2。性能对比显示,借助于Volta和全新的处理器架构,Jetson AGX Xavier相比上代产品,最高性能超出13倍,并且英伟达表示随着软件优化和功能增强,性能和功耗优势还会进一步提升。
另外一个测试基于图像识别网络ResNet-50和VGG19,这个测试将图像分块为224×224格子,用于图像对比识别等操作,在一些机器人平台和自动机器的摄像头检测中比较常见。测试数据显示,在VGG19中,Jetson AGX Xavier的性能是前代Jetson TX2最高18倍,ResNet-50在测试吞吐JetPack 4.1.1时,Jetson AGX Xavier能达到前代产品的14倍,并且延迟低至1.5毫秒。
英伟达还给出了Xavier SoC的CPU性能测试,测试显示,在CPU SPECint-Rate 8x中,Xavier SoC的性能是前代Jetson TX2使用Tegra X2 SoC的大约2.5倍,成绩为160比61。Jetson TX2的Tegra X2处理器采用的是2个Denver D15内核搭配4个Cortex-A57,整体架构比较老,因此出现这样的结果丝毫不令人意外。
▲第三方测试显示,Xavier中Carmel CPU的性能基本上和骁龙845或者Cortex-A75相当。
除了英伟达的官方数据外,一些媒体也给出了有关Jetson AGX Xavier的性能测试结果。比如著名测试网站Anandtech就给出了有关Jetson AGX Xavier的CPU部分和其他多款处理器的性能对比结果,采用的软件是SPEC2006,测试了整数和浮点两个部分的性能。
从测试成绩来看,Jetson AGX Xavier的性能表现中规中矩,整数部分性能类似于骁龙845或者Cortex-A75的处理器档次,浮点部分的性能表现更好一些,尤其是和内存子系统相关的测试,但是总体来看,Jetson AGX Xavier的CPU部分性能和Cortex-A75近似。
▲英伟达展示了大量有关Jetson AGX Xavier和Xavier处理器的性能
在性能功耗比方面,由于制程和目标市场差异,比如Jetson AGX Xavier采用的是12nm工艺,而大部分移动处理器采用了10nm甚至7nm工艺,并且对功耗控制更为严格,因此Xavier的性能功耗比表现不是很好,当然其面对的市场没有必要严格控制功耗。从这些数据来看,Xavier所采用的Carmel架构表现比较正常,属于业内主流水平。
写在最后
Xavier和Jetson AGX Xavier代表了英伟达在AI市场上的又一次努力。它们的推出使得更多开发人员可以借助英伟达的工具进行AI设备的开发和研究,包括但不仅限于机器人、智能汽车、智能家居以及智能工业控制等,Jetson AGX Xavier和背后的AI技术代表的有可能是下一次产业革命的发展方向,智能化和AI化将成倍地提高生产力,这将是又一次产业界的大爆发。而在这个爆发的前夜,英伟达又开始进行自己的布局,培养生态链和系统,默默地等待未来收获利益的时刻。