AMD VS 英特尔?本质就是一滴水和一片海洋的差距

去年,英特尔发布了4路和8路的第三代至强(Xeon)可扩展处理器,彼时预告了10nm Ice Lake的发布。时隔10个月,这一用于单路和双路系统的第三代至强可扩展处理器终于露出庐山真面目。

自从2017年,英特尔推出至强可扩展处理器,并将命名改为“铜牌”、“银牌”、“金牌”、“铂金”后,现已向全球客户交付了超过5000万颗至强可扩展处理器。按照英特尔的估计,已有超过800个云服务提供商部署了基于英特尔至强可扩展处理器的服务器。

今夜,在英特尔至强Ice Lake发布会上,英特尔向数据中心市场投下性能“炸弹”,并且不再沉默,与AMD最新发布的产品“一较高下”。

向数据中心投下性能“炸弹”

提到处理器,首要提及的便是性能,硬核的性能永远是数据中心市场绕不开的话题。从参数上来看,Ice Lake第三代英特尔至强可扩展处理器是针对单路和双路系统的新产品,采用最先进的10nm工艺,最高40核心,单插槽内存容量最大支持6TB。

根据英特尔公司副总裁兼至强处理器与存储事业部总经理Lisa Spelman的介绍,第三代产品相比第二代至强可扩展处理器Cascade Lake核心数量从4-28个升级到8-40个;L1/L2/L3缓存从32KB/1MB/1.375MB升级到48KB/1/25MB/1.5MB;内存通道从6个升级到8个,内存速度从2933升级到3200;插槽间互连传输速度提高到11.2GT/s;I/O方面支持PCle4.0。

对比自家产品,Intel Xeon Platinum 8380比8280在IPC上拥有20%的提升,平均性能提升46%,AI推理能力增强74%。Intel Xeon Platinum 8380相比5年前的ES-2699v4性能足足提高了2.65倍之多。

既然面向的是数据中心,就少不了在细分市场的优化。根据Lisa Spelman的介绍,第三代至强可扩展处理器是首个主流双插槽并启用SGX英特尔软件防护扩展技术的数据中心处理器,内置AI加速(Intel DL Boost)进行深度学习加速,内置英特尔密码操作硬件加速。换言之,这些功能除了带来AI推理性能加速,还带来强悍的安全特性。

相比竞品性能跨越了“一个海”

提到数据中心处理器,难免会联想到友商AMD。就在上个月,AMD公布了Zen3架构的第三代EPYC宵龙处理器“Milan米兰”,彼时AMD宣称旗下EPYC与英特尔的28核Intel Xeon Platinum 8280强117%。

雷军曾说过:“生死看淡,不服就干”。实际上,将EPYC 7763与Intel Xeon Platinum 8280对比无异于“田忌赛马”,只是“跑得最快的马”和“跑得中速的马”对比。本次英特尔完善产品线的Ice Lake(Intel Xeon Platinum 8380)可谓是全面碾压友商。

根据Lisa Spelman的介绍,第三代至强在深度学习和推理方面性能相比AMD EPYC 7763提高了25倍。不过,由于大多数数据科学家并不运行单一的人工智能工作负载,因此在经过调查确定20个最常见的机器和深度学习模型中,性能上相比AMD EPYC提高1.5倍。英特尔甚至还拉出来了GPU来比一比,相比Nvidia A100 GPU提升了1.3倍。

有意思的是,为了证明这些数据并不是空口无凭,英特尔技术专家展示出了几张对比图全面展示了英特尔在架构、缓存和时延上的优势。

首先是在缓存上,Intel Xeon Platinum 8380 Processor在最为关键的L3缓存上响应速度远高于AMD EPYC 7763 Processor。至强可直接访问本层缓存,从而获得一致的响应时间、访问数据的时间。

而竞品方面,则有8个不同的计算硅芯片,每个都有各自独立的缓存,这样就会产生一些问题。假若数据在本地缓存中,也就是核心所在方位,响应时间就会很短;假若数据不在本地缓存中,实际上要请求通过I/O硅芯片到另一个计算硅芯片来检索数据,再通过I/O芯片回到发出申请的内核,所以本地缓存访问和远程访问之间响应的时间会差很多。

其次是内存上,Intel Xeon Platinum 8380 Processor可以同时以3200Mhz上运行两条DIMM,而AMD EPYC 7763 Processor宣称只有一个内存通道可以以最快速度运行,当运行第二个DIMM时,速度会有所下降,这会降低内存的吞吐量。

另外,至强的DRAM时延相比米兰最高可快30%,这要归功于至强业界领先的每个插槽的6TB内存。假若客户通过优化软件,将数据储存在靠近处理器端的插槽,响应速度会缩短很多,这样就能为关键工作负载提供一致的响应的时延。

技术专家强调,“这些好处不一定在吞吐量的性能上显示出来,因为吞吐量性能一般来说仅仅增加跨系统的内核数量罢了,而不是考虑它的实际响应时间。”

在工作负载加速方面,英特尔早在三四年前使用VNNI、AVX-512,围绕这些指令集英特尔建立了非常庞大的软件生态系统,而这一切都将延续到Ice Lake上。

技术专家强调,工作负载加速器指令就好比性能放大器甚至是“界王拳”,它提供的增益要比仅仅向处理器添加核心所能带来的增益高很多。

通过指令集优化软件的好处就是可以用更少的内核实现更好的性能。可以说优化过指令集的Intel Xeon Platinum 8380简直是云服务和AI推理的“大杀器”,尤其在图像识别性能上甚至高出了AMD EPYC 7763足足25倍之多。

技术专家强调,这些结论实际上都是在产品发布很久后通过改进客户软件来持续优化的路线,这些数据非常惊人的,在一些人工智能上提高了30倍之多的AI推理性能,10倍更低的时延。

打好产品“组合拳”

性能上“跨一座海”就够了吗?实际上,英特尔打的是产品“组合拳”,“大小搭配干活不累”,多样化的组合下能够为数据中心市场带来更多可能性。

其一,截至目前英特尔已经可以服务1、2、4、8个插槽配置,在产品组合上可让客户优化其节点大小,实现更高的虚拟机密度,减少滞留资源,节约拥有成本。

其二,英特尔至强可扩展处理器是一个可拓展且平衡的架构,通过英特尔6大技术支柱(制程和封装、架构、内存和存储、互连、安全、软件)释放器件最佳的性能。

其三,英特尔作为以IDM 2.0为主旨的公司,拥有多样化的产品组合,就像“搭积木”一样将一个又一个超越性能的器件累加便可获得不止一倍的提升。这就不得不提到这次发布会被一并发布的产品。

除了扩充了第三代至强可扩展处理器,一并被发布的还有英特尔傲腾持久内存200系列、英特尔傲腾SSD P5800X和英特尔SSD 5-P5316、英特尔以太网800系列适配器以及全新的英特尔Agilex FPGA。

上文也有介绍过Ice Lake在内存架构的优势,那么英特尔傲腾持久内存200系列无疑是充分释放这种架构的优势的“好搭档”。傲腾持久内存200是英特尔的下一代持久内存模块,内存带宽增加了32%,每个插槽内存容量最高可以达到6TB,并配备EADR增强型异步DRAM刷新技术。

在英特尔的“存储金字塔”上,拥有英特尔傲腾SSD P5800X和英特尔SSD 5-P5316两款产品。前者是世界上最快的数据中心固态盘,提升了4倍IOPS、6倍TOS,并比NAND固态盘延迟降低13倍;后者采用了最具密度的NAND,与上一代产品拥有5倍耐久性。

高工作负载之下,需要新的适配器加速高优先级别应用。英特尔以太网适配器800系列拥有最高200GB/s的数据吞吐量,适合高性能 vRAN、NFV转发面、存储、高性能计算、云和CDN等应用场景,能够为虚拟机的密度提供最多两倍的资源。

FPGA和至强是一对“黄金搭档”,英特尔早在2019年宣布Agilex FPGA产品,该系列不仅采用最先进的10nm SuperFin制程技术,还搭配了Quartus Prime软件,与竞争对手的7nm FPGA相比,能实现高于2倍的每瓦性能。

除此之外,“芯片荒”成为现在茶余饭后的热点话题,再强的性能缺乏供应链也无济于事,但英特尔作为半导体龙头企业似乎并没有这方面的担心。

英特尔技术专家表示,“英特尔作为一家集成设备制造商,我们可以把握自己的命运。比如说我们交付给客户产品时,可以确定什么时候交付,怎样优先排序,如何更好满足需求,履行我们的承诺。所以客户非常重视英特尔的供应链和物流的能力,因为我们能够按照时交付他们所需的产品。”

另一方面,最近英特尔新CEO帕特·基辛格在此前宣布将在美国亚利桑那州的Octillo园区新建两座晶圆厂,总投资将近200亿美元,这也是交付的后备保障。

总结起来,英特尔此次发布的第三代至强可扩展处理器Ice Lake拥有三方面优势:其一,内置AI、安全性,性能强劲;其二,产品组合多样化;其三,供应链稳定。

21ic电子网,文/付斌

(0)

相关推荐