日益临近的PCIe 5.0和PCIe 6.0
本公众号上一次对PCIe规范的跟踪介绍还是在2020年8月的PCIe 6.0规范及之后的技术展望一文中,距今已经有快一年的时间了。在这将近一年的时间里,针对PCIe 5.0速率的PCIe标卡规范(CEM 5.0)已经完成了各种电气和机械规格的定义,即将正式发布。而针对再下一代的PCIe 6.0 Base Spec也已经进入到R0.9版本的制定中,即将完成所有的技术标准定义。随着2021年底的逐渐临近,新一代的PCIe正在慢慢向我们走来。
PCIe 5.0速率将会是2022年推出的服务器产品的一大亮点,其信号速率将会是目前正在推广中的PCIe 4.0的两倍,这将提供更大的数据传输带宽。虽然PCI-SIG组织在2019年5月就发布了PCIe 5.0 Base Spec,但由于服务器上有众多的PCIe插卡,因此定义主板上PCIe插卡的PCIe CEM 5.0规范更受业界关注。从PCI-SIG组织已经公布的PCIe CEM 5.0 Raft 0.9版本文档来看,支持32GT/s速率的PCIe 5.0插卡最多可以达到600W功耗,为其分配的链路损耗则为9.5dB。
PCIe CEM 5.0主要特性一览
PCIe插卡一直都是金手指的形态,但随着PCIe信号速率一路从8GT/s、16GT/s提升到32GT/s,对信号完整性(Signal Integrity)的要求也越来越高。为了减少金手指部分的损耗、提高这个位置的阻抗一致性,金手指的长宽尺寸不得不做一定的缩减。于是,新一代支持PCIe 5.0速率的插卡上将会看到更小的一个个金手指区域。
PCIe CEM 5.0使用更短更窄的金手指
除了PCIe 5.0 AIC卡(Add-in Card)金手指部分的尺寸缩减外,金手指部分的地参考平面和接地孔的排布方式也比PCIe 4.0速率时代有了很多的变化。更多的接地孔可以提供更好的信号回流和阻抗控制,虽然对PCB设计要求上会更为复杂、更为精细一些,但换来的是对32GT/s这样高速率信号的良好支持。
PCIe CEM 5.0金手指部分的地孔设计
PCIe CEM 5.0规范中对AIC卡金手指部分的具体设计有非常详细的描述,相信所有开发PCIe插卡的厂家都会对其中给出的设计规则进行仔细的研究,并落实在GPU卡、SmartNIC卡、AI加速卡等AIC卡的开发中。
除了为支持32GT/s速率而定义的各种信号优化措施之外,PCIe CEM 5.0规范中另一个引人关注的更新点是其对高达600W功耗的支持。在目前的PCIe 4.0速率时代,NVIDIA开发的GPU卡的最大功耗在350W~400W之间。如果PCIe 5.0时代会推出高达600W功耗的GPU卡,那么整机的散热将会是对服务器开发厂家的一个极大挑战。
PCIe CEM 5.0高功耗电源连接器
在600W功耗下,如果还沿用一直以来的12V电压供电,则供电线缆需要提供50A的大电流。为了减少电源电缆的发热、提高供电效率,在PCIe CEM 5.0规范中还引入了48V供电电压。对于未来的GPU服务器而言,PCIe CEM 5.0规范的这一改变是顺应时代潮流的。毕竟,在NVIDIA SXM形态的GPU卡上,早已经是48/54V电源供电了。使用高电压,有利于未来更大功率插卡供电提供便利。
单张PCIe插卡达到600W功耗、整机配置8块这样的插卡(GPU卡、AI加速卡),光是PCIe插卡部分的总功耗就会达到4800W。如果再加上带有双路CPU的主板、服务器前置的二十多块硬盘、网卡、风扇等部件,服务器整机的功耗轻轻松松就可以突破5500W。对于这样的系统,光靠风冷散热已经很难应对了。所以,在PCIe CEM 5.0规范里,很贴心地加入了液冷设计方案。高功耗的PCIe插卡PCB上需要加上热传导板(TPP:Thermal Transfer Plate),然后再通过冷板式液冷进行散热。因此,从2022年开始的2~3年里,估计业界将会出现很多支持液冷的服务器机型。
PCIe CEM 5.0卡的液冷散热
PCIe AIC卡和主板配合之后的各种一致性测试也是PCIe CEM 5.0规范的重点之一,不过这一部分的内容涉及到众多的细节,在这里就不一一说明了。有兴趣的读者可以去看看PCIe CEM 5.0规范中关于Compliance Test的章节,相信会获得很多的启发。对于Keysight和Tektronix这些测试仪器厂家而言,PCIe CEM 5.0规范的发布将会是其推广新一代测试仪器的良好契机。
除了马上要进入大规模应用阶段的PCIe 5.0 Base & CEM规范之外,PCI-SIG组织也更新了PCIe 6.0 Base规范的最新进展。相比于2020年,PCIe 6.0 Base规范的制定目标并没有发生变化。由于PCIe 6.0采用了PAM4信号制式,虽然信号速率再次翻倍提升到64GT/s,但其实信号基频只有微小增加。因此,只要能够实现32GT/s NRZ信号制式的PCIe 5.0信号速率传输,升级到64GT/s PAM4信号制式的PCIe 6.0信号速率将不会是一件很困难的事情。
PCIe 6.0规范重要的性能指标
但PAM4信号制式有一个缺点,那就是原来一个完整的眼图会被分割为三个小的眼图,抖动、噪声对每个小眼图的影响将会明显大于对原来完整大眼图的影响。这就是PAM4信号要求更高的信噪比(SNR)的原因。
NRZ和PAM4信号眼图对比
对于64GT/s的PCIe 6.0信号而言,为了提高信号经过长链路后的信噪比,PCI-SIG组织最终将通道损耗定义在了32 dB,相比PCIe 5.0信号36dB的通道损耗减少了4个dB。而且,对于服务器里主板到AIC卡的较长通道,增加PCIe Retimer芯片也是必不可少的措施。当前,业界已经有不少厂家推出了支持PCIe 5.0速率的Retimer芯片。相信在PCIe 6.0规范于今年底正式发布之后,支持PCIe 6.0速率的Retimer芯片在2022~2023年间也会推向市场。
PCIe 4.0/5.0/6.0的通道损耗
在明确了PCIe 6.0信号通道的总体损耗之后,通道链路各部分的损耗分配也确定了下来。相比于PCIe 5.0信号,PCIe 6.0信号在CPU内部的损耗需要减少1 dB、在AIC卡上的损耗也要减少1 dB,这意味着CPU和AIC卡上的芯片都需要使用更好的工艺制程和封装方式,才能获得损耗的降低。而在主板方面,损耗更是需要降低2 dB,这也就意味着主板需要使用更好的PCB板材(>=Megtron7板材)或更多地使用高速电缆来分配信号。
PCIe 5.0和6.0通道损耗分配对比
总 结
对于即将到来的PCIe 5.0信号和下一代的PCIe 6.0信号,在PCI-SIG制定的规范文档中还有很多细节知识可供研究。受限于篇幅,本文不可能一一涵盖到,只能关注其中的一些重点内容。对于未来的PCIe 5.0 & 6.0而言,更主要的应用还是基于其物理层之上的CXL协议,这是改变服务器内部资源访问方式的重大变革。关于CXL技术及其可能的应用方式,可以在CXL前瞻:服务器领域将迎来怎样的新架构时代!一文中找到答案。