GeForce RTX 3070 Ti天梯榜首发评测:GA104核心火力全开
本月初的台北国际电脑展(Computex 2021)上,NVIDIA宣布了两款GeForce RTX 系列的全新GPU,除了上周已经开卖的GeForce RTX 3080 Ti之外,还有一款建议零售价仅为GeForce RTX 3080 Ti半价的GeForce RTX 3070 Ti。GeForce RTX 3070 Ti采用了完整的GA104核心,并且还给GA104核心首次用上了GDDR6X显存,让其性能释放畅通无阻,可以说,要想知道GA104核心的极限性能可以达到何种地步,就看这张GeForce RTX 3070 Ti就行了。
完整的GA104核心现身
这代Ampere架构的GA104核心第一次现身是在GeForce RTX 3070这款GPU身上,相比于RTX 3090/3080 Ti/3080的GA102大核心不同,GA104核心不管是核心面积、晶体管数量还是GPC单元的构成上都有很大的变化。
GeForce RTX 3070 Ti的完整GA104核心
不过,GeForce RTX 3070上的GA104-300核心并不是完整的GA104核心,而是屏蔽了一组TPC,也就是只启用了GA104上的46组SM单元。而如今发布的GeForce RTX 3070 Ti上,GA104-300核心屏蔽的这组TPC得以解除桎梏,完全体的GA104得以现身,其核心代号也变更为GA104-400。
前面说过,GA104核心不管是核心面积、晶体管数量还是GPC的构成上都有很大的变化,具体来说就是核心面积从628mm2缩小到392.5mm2,晶体管数量也从283亿变成了174亿,芯片面积和晶体管数量都缩小了40%左右。
GPC单元方面,GA102核心的GPC单元较大,每组GPC单元包含6组TPC单元,而GA104核心的每组GPC单元包含4组TPC单元,稍小一点。完整的GA104核心具有6组GPC单元,也就是一共具有24组TPC单元,而每组TPC包含2组SM单元,所以总共拥有48个SM单元,每组SM有128个CUDA,一共有6144个CUDA,8组32位的显存控制器组成256bit的显存位宽,这也就是GeForce RTX 3070 Ti的完整规格。
GDDR6X显存下放,助力完整的GA104核心火力全开
GDDR6X显存的加持是GeForce RTX 3070 Ti另一大亮点,此前GDDR6X显存都仅与GA102大核心搭配出现,毕竟作为最新的显存规格其成本肯定是相比于GDDR6显存要高不少的。GeForce RTX 3070 Ti有了GDDR6X显存的加持,在显存位宽与GeForce RTX 3070一样的情况下,可以具有更高的显存带宽,助力GeForce RTX 3070 Ti上这颗完整的GA104核心火力全开。
与GDDR6显存相比,GDDR6X上出现重大变化的地方是它的信号传输机制。原本的GDDR系显存使用的是非常原始的二进制信号,它用高电平代表1,低电平代表0。如果要提高它的数据带宽,那么提高显存的时钟频率即可。但现在由于受到制程工艺等各方面因素的影响,显存的时钟频率在现阶段已经很难再攀高,于是,厂商想到了用新的信号调制机制来提高信号传输的效率,他们选择了已经有较为广泛的PAM4。
PAM是一种用模拟信号脉冲编码信息的信号调制方式,PAM4是其中较为简单的一种。与NRZ这种仅有高和低两种状态的二进制信号不同的是,PAM4有4种不同的电平值,也就是它有4种不同的状态,而每种状态对应着一种0和1的组合,也就是说,它的每个状态对应了2个bit的数据量,较NRZ是翻倍的。另外NVIDIA还配套引入了MTA编码,在信号传输层面上减少损耗,保证稳定性。
在GDDR6X显存的加持下,RTX 3070 Ti尽管与RTX 3070一样是256bit的显存位宽,但是显存带宽却从448GB/s跃升到608.3GB/s,增幅多达35.78%。
最后,RTX 3070 Ti与RTX 3070相比,在核心频率、TGP功耗方面也有一些区别,基础频率从RTX 3070的1500MHz升高到1575MHz,Boost频率RTX 3070的1725MHz升高到1770MHz,TGP功耗由于GDDR6X显存的原因,也有不小的提升,达到了290W。售价方便,则是相比于RTX 3070小贵了600元。
完全体的GA104核心加上GDDR6X显存的加持,再加上频率方面进一步提高,这一套组合拳下来,可以说,这次推出的GeForce RTX 3070 Ti是将GA104核心的性能完全榨干了。
RTX 3070 Ti与RTX 3080和RTX 3070的规格对比如下:
NVIDIA Ampere架构简介
RTX 30系GPU上的SM单元相比RTX 20系的,最大变化是加倍了针对传统计算的FP32单元、引入第二代RT Core以及第三代Tensor Core。
大家都知道在Turing架构中,NVIDIA整数型(INT32)和单精度浮点型(FP32)两种不同的数据类型交给两种不同的ALU进行计算。不过现代游戏应用中最为常见的还是FP32,因此为了提高计算效率NVIDIA在NVIDIA Ampere 架构上引入了可同时支持INT32或FP32两种数据类型的新ALU。也就是说,现在有两条不同的数据路径,一条能够同时处理整数或者单精度浮点,另一条则单纯处理处理单精度浮点计算。
负责进行实时光线追踪运算的专用硬件单元RT Core在NVIDIA Ampere 架构上也更新到了第二代,最主要是增加了动态模糊的加速运算支持。NVIDIA在其中新加入的插值算法可以在保证动态模糊精确性的同时提高了实时光线追踪效率,官方表示最高可达8倍于上代的速度。另外在基础的BVH计算上,第二代RT Core也可以比第一代快2倍。
Tensor Core这个负责运行AI计算的硬件单元在NVIDIA Ampere 架构上也升级到了第三代。其实之前发布的A100计算卡上已经用上了新的第三代Tensor Core,它能够提供比第二代Tensor Core高出4倍的效能,不过游戏卡上面的Tensor Core进行了一定的精简,其FP16 FMA计算的吞吐量只有GA100核心中的Tensor Core的一半。
而第三代Tensor Core带来的更强劲AI运算有些什么用呢? 答案就是DLSS。随着RTX 30系GPU一同发布的,还有DLSS的更新版 - DLSS2.1,在很多游戏设置里面就是DLSS选项中的“超级性能”模式,它可以通过渲染1440P的画面输出4320P的8K游戏画面,并且与原始8K分辨率的画面几乎肉眼难以区分,这利用的就是Tensor Core带来的更强劲AI运算功能。
再之后就是HDMI 2.1这个备受期待的新输出端口了。在HDMI 2.1之下,显卡可以用单线材做到8K60Hz或者4K120Hz的输出。对于想用大尺寸电视打游戏的玩家来说是一个不错的福音。
最后还有就是NVIDIA新推出的RTX IO了。这项技术是NVIDIA借助微软此前推出的DirectStorage API来实现的,将会作为插件的形式与后者整合,可以让GPU绕开CPU直接读取SSD数据,从而降低CPU的占用率。不过由于RTX IO需要依靠Windows的DirectStorage API,并且还需要游戏开发商做针对性的优化,这需要一定的过程,我们只能期待尽快可以看到这项技术的具体应用。
RTX 3070 Ti公版显卡产品解析
RTX 3070 Ti公版显卡外观
RTX 3070 Ti公版显卡与之前的RTX 3070公版显卡在外观上的区别非常的大,最引人注目的当属其散热风扇的设计结构。与RTX 3070公版显卡采用的当下最常见的正面双轴流风扇散热结构不同,RTX 3070 Ti公版显卡沿用了与目前RTX 3090/3080 Ti/3080这三张公版卡一样的双轴流推挽式风扇散热设计。
同时,与RTX 3070公版显卡相比,RTX 3070 Ti公版显卡的体型也是明显的增大了。当然,RTX 3070 Ti公版显卡也保持了非越肩的设计,并且厚度也是双槽,但是与与RTX 3070公版显卡相比在长度上增加了不少,这也意味着其具有更多的散热鳍片面积。
采用双轴流推挽式风扇散热设计和增加散热鳍片面积,很明显是因为RTX 3070 Ti对散热的要求提高了,毕竟与RTX 3070相比,RTX 3070 Ti具有更多的计算单元,核心频率也更高,最重要的是,它有性能更强但发热也更大的GDDR6X显存。
至于供电接口,则仍然是全新的12 Pin供电接口,这个接口比标准的PCIe供电接口小,但能够承载更大的电流,也就是能够获取更大瓦数的外部供电。但是由于PC电源方面还未及时跟上新方案,所以公版卡也附送有一条转接线,用于将标准PCIe供电接口转换成新的12 Pin供电接口。
显示输入接口方面也是有3个DP接口和1个HDMI接口,这个HDMI接口是2.1标准的,可以支持8K 60FPS乃至10K 30FPS的视频输出,与采用HDMI 2.1接口的显示器或者电视连接使用的话,只需要一根线材就可以实现8K 60FPS的视频输出,而不像之前需要两根DP线或者4根HDMI线。
RTX 3070 Ti的PCIE接口支持PCIE 4.0,并且与同时公布的RTX 3080 Ti一样,出厂就支持Resizable BAR,并不需要像之前的RTX 3070一样需要更新GPU BIOS来获得支持。
RTX 3070 Ti公版显卡拆解:4根6mm热管,12相供电
RTX 3070 Ti公版显卡的散热器看起来与更高一级的RTX 3080的散热器差不多,同样是4个热管,并且均覆盖有黑色镀层,但是规格上其实缩了不少,因为RTX 3080公版卡的4根热管都是8mm直径的,而RTX 3070 Ti公版卡的4根热管都是6mm直径的。
此外,RTX 3070 Ti公版卡散热器与GPU核心接触的部分看起来并不是真空腔均热板设计,而是纯铜底座,并且底座并没有进行镀镍处理,相对来说用工粗糙一些。
RTX 3070 Ti公版显卡的PCB算是一大亮点,因为它与目前所有的公版显卡都不同,它的PCB末端进行了圆弧状的切割,让它在能与双轴流推挽式风扇散热设计相兼容的情况下最大化PCB的面积。
PCB的中间可以看到RTX 3070 Ti的GA104-400核心,周围一共有8颗显存,均是美光的GDDR6X显存,型号为IBT77-D8BWW,单颗1GB容量,位宽32bit,8颗一共组成8GB的容量、256bit位宽。
供电方面一共采用了12相供电,MosFET均是来自万国半导体(Alpha & Omega Semiconductor)的,不过上面只刻了生产批次编号BLNO-1E3A,PWM控制器可以在背面找到,有一颗uP9512R和一颗uS5650Q。
性能测试
测试平台
测试平台如上,内存是2条8GB的Tt ToughRAM DDR4-3600内存组成的16GB双通道配置,并且在BIOS中打开XMP让内存运行在3600MHz的频率,同时在BIOS中打开Resizable BAR的支持,其他均采用默认设置。
对比的显卡方面,自家的N卡选用了RTX 3070 Ti上一档的RTX 3080与下一档的RTX 3070,还有就是RTX 3070 Ti对位的上一代显卡RTX 2070 SUPER,A卡方面选用了售价与RTX 3070 Ti接近的RX 6800以及对位上接近的同为“7系”的RX 6700 XT。
基准性能测试
我们以3DMark作为显卡基准性能测试,测试项目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六个项目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三个项目分别测试的是GPU在DX11游戏中的1080p分辨率、2K分辨率和4K分辨率下的性能指数,Time Spy、Time Spy Extreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数,Port Royal是测试的GPU实时光线追踪的性能指数,具体成绩见下表,表中所列成绩均为3DmarkGPU单项的得分。
3DMark基准测试方面,RTX 3070 Ti综合约相当于RTX 3080的83.4%的性能,不过在光追性能方面,差距要大于这个平均值,RTX 3070 Ti的光追性能仅相当于RTX 3080的76.7%。与RTX 3070对比的话,RTX 3070 Ti在各种模拟环境下的提升幅度都差不多,整体约提升了9%的性能。与上一代对位的RTX 2070 SUPER相比,RTX 3070 Ti的提升幅度非常的大,综合提升了47.3%,与官方宣传的50%的性能提升差不多。
跟A卡阵容对比的话,还是老样子得分三部分看,首先是DX 11 API接口下,RTX 3070 Ti约有RX 6800的83%的性能,与RX 6700 XT相比的话略微高出4%。而在DX 12 API接口下,RTX 3070 Ti就与RX 6800不相伯仲了,与RX 6700 XT相比的话高出多达27%。最后光追下的性能,A卡这边是完全不能打,RX 6800仅有RTX 3070 Ti的88.5%的性能,RX 6700 XT更是只有RTX 3070 Ti的66.6%的性能,即光追性能方面RTX 3070 Ti领先RX 6700 XT多达50%。
多款游戏实测
传统光栅化游戏测试
传统光栅化游戏画面测试这部分均将游戏画质设置为预设里面的最高画质设置(《地铁:离去》选择Ultra画质,《战争机器5》统一打开异步计算、关闭可变速率阴影),默认不是全屏的手动改为全屏,默认开启了垂直同步的手动关闭垂直同步,除此之外其他选项均为默认设置,均采用游戏自带的Benchmark输出结果,基于RTX 3070 Ti的定位,测试4K和2K两个分辨率。
综合10款游戏的实际测试来看,4K分辨率传统光栅化渲染下,RTX 3070 Ti综合约相当于RTX 3080的83.5%的性能,与RX 6800相比互有胜负,综合约为RX 6800的97.3%的性能。相对于RTX 3070综合领先9.6%,相对于RX 6700 XT综合领先25.5%,相对于RTX 2070 SUPER综合领先48.7%。
2K分辨率传统光栅化渲染下,RTX 3070 Ti综合约相当于RTX 3080的85.7%的性能,与RX 6800相比也是互有胜负,不过总体还是略输一点点,综合约为RX 6800的95.2%的性能。相对于RTX 3070综合领先10%,相对于RX 6700 XT综合领先14.3%,相对于RTX 2070 SUPER综合领先42.4%。
具体的RTX 3070 Ti的游戏性能的话,可以理解为在传统光栅化渲染下,RTX 3070 Ti可以满足当下所有最新的单机大作在2K分辨率下以最高画质流畅运行,比如《看门狗:军团》可以达到74帧,《刺客信条:英灵殿》也可以达到71帧。而面对稍微更早一点的游戏,或者对配置要求不那么严苛的最新大作,有的也能在4K分辨率下以最高画质流畅运行,比如《尘埃5》可以达到4K 69帧,《古墓丽影:暗影》可以达到4K 72帧。
实时光追游戏测试
光追方面,也是测试4K和2K两个分辨率,由于A卡不支持DLSS,为了控制画面效果完全一样所以N卡也跑了不开启DLSS的成绩,但是对于RTX显卡用户来说DLSS这项福利技术多数是会开启的,所以为了表现GPU的实际游戏体验,也测试了N卡开启DLSS的成绩(《尘埃5》不支持DLSS)。这些游戏中,光线追踪效果均设为“高”,DLSS方面,考虑到画质与帧数的综合体验,在2K分辨率下,支持DLSS 2.0的均选择为“平衡”模式,在4K分辨率下,支持DLSS 2.0的均选择为“性能”模式。
综合6款光追游戏的实际测试来看,4K分辨率光线追踪渲染下,RTX 3070 Ti综合约相当于RTX 3080的79%的性能,相对于RTX 3070综合领先9%,相对于RTX 2070 SUPER综合领先57.8%。A卡由于光追性能较弱,在开启光追之后成绩普遍较为糟糕,在4K分辨率光线追踪渲染下,RTX 3070 Ti综合领先RX 6800约26.3%,领先RX 6700 XT约67.5%,比领先上一代的RTX 2070 SUPER的幅度还大。
2K分辨率光线追踪渲染下,RTX 3070 Ti综合约相当于RTX 3080的83.7%的性能,相对于RTX 3070综合领先12.1%,相对于RTX 2070 SUPER综合领先62%。综合领先RX 6800约29%,领先RX 6700 XT约61.1%。
开启DLSS之后的情况就不多说了,这项技术让N卡的游戏帧数可以完全抛离A卡,所以还是期待AMD类似的FidelityFX Super Resolution(FSR)早点能让玩家应用上,尽管目前还不知道FSR对画质的影响可否像DLSS 2.0这样表现那么好。
具体的RTX 3070 Ti在光追设置下的游戏性能的话,跟传统光栅化渲染下的情况差不多,2K分辨率下借助DLSS技术即使最新的光线追踪大作也可以流畅运行,比如《看门狗:军团》可以达到62帧。并且这个分辨率下,面对更早一批的光追游戏来说,不开DLSS也可以超过60帧流畅运行,比如《地铁:离去(增强版)》可以达到67.51帧,《古墓丽影:暗影》可以达到80帧。
到了4K分辨率下,面对着较为极致的游戏设置,RTX 3070 Ti确实有些吃力,《看门狗:军团》借助DLSS勉强可以接近60帧,不过对面压力稍低的游戏,比如《地铁:离去(增强版)》和《古墓丽影:暗影》,在借助DLSS的支持下达到至少60帧还是没问题的。
温度测试:GDDR6X显存“虽快但热”
我们的GPU散热测试均在裸机状态(如果安装在机箱内,GPU温度会高出5℃左右)下进行测试,测试环境温度约为25.7℃。待机温度是开机以后记录10分钟,满载温度则是完成3DMark Time Spy压力测试后记录下,数据通过GPU-Z的Log to File功能记录,以下为温度测试曲线。
温度测试发现RTX 3070 Ti是目前Ampere家族中最热的一张卡了,满载温度将近82摄氏度。原因其实也很清晰,一方面是GDDR6X显存的原因,另一方面就是散热规模的原因,与其他搭载GDDR6X显存的显卡相比,RTX 3070 Ti公版卡的散热器规格缩水了太多,只能勉强够用。
不过我对温度这方面并不担心,这情况正是各家非公版RTX 3070 Ti需要表现的时候了,相信非公方面是会在散热规模上相比公版大幅升级来保证散热的。
功耗测试:满载功耗平均283W
通过我们专用的显卡功耗测试仪器,可以分别精确地测量显卡PCI-E、外接电源接口瓦特数,显卡最大功耗在3DMark Time Spy压力测试中获得,待机功耗则是在进入系统后记录1分钟取平均值。
经过测试,这张RTX 3070 Ti公版显卡待机功耗平均13W,满载功耗平均283W,峰值到过302W,说起来这个功耗里有相当大一部分是被GDDR6X显存吃掉了,而这也是它非常热的原因。搭配电源的话,公版卡的包装上写的是建议750W,但是我们还是建议850W起步会更好。
超频性能测试
将功耗上限和温度上限解锁到最高之后,经过多番手动超频尝试,RTX 3070 Ti公版显卡最终在核心频率+90MHz,GDDR6X显存数据速率+2Gbps下完成超频。这个状态下,该卡能顺利通过3DMark的FireStrike项目测试并且分数最高, 此时该卡的Boost频率为1860MHz,显存等效频率为21Gbps。这张RTX 3070 Ti公版显卡在超频状态下运行3DMark FireStrike项目的GPU得分与默频状态下GPU得分的对比如下表所示。
同为GA104核心,RTX 3070 Ti的频率比RTX 3070要高,可以认为已经被NVIDIA设定了较高的频率,加上这张RTX 3070 Ti公版显卡的散热也是几乎到顶了,所以超频的幅度更是有限,3DMark FireStrike项目36887分这个程度看起来差不多是RTX 3070 Ti的灰烬性能了,真的是把GA104核心榨的一滴不剩了。
总结:GDDR6X显存加持,GA104核心火力全开
总的来说,虽然RTX 3070 Ti与RTX 3080的核心都具有6组GPC,但是由于GA104核心每个GPC单元包含的TPC单元相比GA102核心的少了40%,尽管RTX 3080的GA102-200核心的6组GPC有两组还做了少量阉割,但是相比RTX 3070 Ti的GA104-400还是有巨大的规格差异,导致RTX 3070 Ti与RTX 3080的性能差距还是相当大的。
而RTX 3070 Ti与RTX 3070相比的话,虽然SM单元数量仅仅增加了2组,增幅不到5%,但是由于采用GDDR6X显存之后显存带宽有巨大的提升,整体也有将近10%的性能提升,确实足够划分为新的一档显卡。与上一代对位的RTX 2070 SUPER相比,将近50%的性能提升,在光追下提升还更大,对于换代的同级别产品,也算是相当不错的表现。
显卡迷你天梯榜 (完整显卡天梯榜)
与A卡对比的话,两家的风格差异非常明显,这一代N卡全面采用RTX前缀就表明了整体布局是面向新世代的光追游戏环境的,RTX 3070 Ti与几乎同价位的RX 6800相比在光追游戏环境下优势明显,领先高达27%,不过在传统光栅化游戏环境下则总体略输RX 6800少许,不过这个幅度非常小,而且具体的游戏互有胜负,结合价格来看的话,可以认为两者这部分的表现差不多。而与对位相近的RX 6700 XT相比,RTX 3070 Ti则是全面领先,不过价格也高出有一定幅度。