NVIDIA GeForce RTX 2080 Ti/2080同步评测:追光十二年
大家期待了两年的NVIDIA新显卡,终于在今天正式解禁了性能评测,中间跳过了Votla架构后,Turing架构横空出世,带着图灵极具革命性的创新思想,全球第一款支持实时光线追踪的显卡RTX 2080 Ti、RTX 2080诞生了。那么在新架构、新工艺下的Turing图灵显卡将会与光线追踪迸发出什么样的火花?性能上会有怎样的惊喜?一切都会在这篇同步评测中揭晓。
在过去10年,NVIDIA一直都在坚持使用GeForce GTX作为显卡的前缀,这一次改名GeForce RTX显示了他们内心的激动、以及改变游戏界现状那种自豪,“R”显然代表着“Real-Time Ray Tracing(实时光线追踪)”,代表着NVIDIA过去十年的努力,这一刻终于呈现给了我们的游戏玩家。
NVIDIA CEO黄仁勋在发布现场兴奋地说,Turing显卡是过去12年里GPU最大的飞跃。
所以,这一代Turing图灵显卡最大亮点就是实现了游戏画质飞跃式进步的前提——支持实时光线追踪,也是最大的亮点。下面是我们针对RTX 2080 Ti、RTX 2080“光追”显卡,对比上一代同级Pascal显卡的规格对比表。
RTX 2080 Ti、RTX 2080规格:
首先Turing显卡最明显的变化就是,目前是一个核心对应一个型号,TU102是RTX 2080 Ti专属、TU104为RTX 2080专属,TU106为RTX 2070专属,而上一代GTX 1080、GTX 1070共用同一款GP104核心。
Turing显卡将会采用12nm FFN工艺打造,技术供应方来自台积电,12nm FFN其实还是基于16nm FF+演进过来,12nm FFN最后的“N”代表着这是专门为NVIDIA优化的高性能版本。
尽管有了新制程的支持,Turing GPU核心面积也是水涨船高,虽然还没有达到TITAN V GV100核心那种815mm2级别,但也相差不远了,RTX 2080 Ti的TU102足足有754mm2,RTX 2080使用的TU104也有545mm2,因此晶体管数量达到了空前的186亿、136亿,像RTX 2080比起GTX 1080都快翻倍了。
冷静地分析一下,Turing核心面积暴涨原因其实并不是暴力堆砌CUDA单元结果,而是引入了全新的Tensor Core以及RT Core单元有极大关系。而它们的出现成就了Turing图灵显卡最大亮点——游戏也可AI、实时光线追踪不是梦!
TU102核心架构
之前我们都说过三款新显卡都有不同的GPU核心,其实它们内部结构都是发生了很大变化。RTX 2080 Ti TU102核心规模真的非常大,TU102核心一共分为6组GPC单元,每组GPC单元又拥有12个SM单元,一共是72个SM单元,但RTX 2080 Ti也只用到其中的68个而已,算下来68×64=4352个CUDA流处理器。同时按照RTX 2080 Ti已经公布的参数,可以计算得出,每个SM单元将会配备64个CUDA、8个Tensor Core 、1个RT Core,每个SM单元配给64个CUDA的做法,倒像是从前GP100大核心喜欢做的事情,原因会在后面给出。
TU102
TU102核心架构
完整版的TU104核心依然是6组GPC单元,不过每组GPC改为8个SM单元,一共是6×8=48个,而RTX 2080的GPU核心是TU104-400,只用上了46组,还有预留有2组空缺的,46×64=2944个,规模要比RTX 2080 Ti小多了,真怨不得RTX 2080 Ti为什么贵那么多。
TU104
频率方面,RTX 20系列显卡频率还是相对保守,没有说一来就上2GHz这种可怕设定。但这一次频率高低出现了微妙的变化,以往Founders Edition版本意味着是最低的基础频率,然而在RTX 20系列中,它也预超频了。RTX 2080 Ti Founders Edition设定在1350MHz,起步看似很低,但boost频率可达1635MHz,将近300MHz的boost范围前所未有,Pascal架构显卡的基本上都是150MHz以内。RTX 2080 Founders Edition是在1515-1800MHz之间。另外有NVIDIA GPU BOOST 4.0神秘加成,频率还能更上一层楼!不过我们也担心,Founders Edition版本预设频率较高,GPU BOOST 4.0凶残,12nm FFN非大改工艺,留给玩家的超频空间依然有限。
浮点性能上,因为涉及到CUDA单元、Tensor Core、RT Core,三者性能差异各不相同,个中关系也很微妙。就单精度性能而言,RTX 2080居然和GTX 1080 Ti不分伯仲,所以大家就不要说期待RTX 2080吊打GTX 1080 Ti了,不过RTX 2080 Ti是真的强,14.2TLFOPS要比GTX 1080 Ti的10.6TLFPOS高多;由于Pascal架构显卡没有Tensor Core,Tensor INT4这方面算力为0,RTX 2080 Ti、RTX 2080分别为455.4、339.1TOPS;衡量光线追踪能力的RTX- OPS上,图灵显卡由于有专属的加速硬件RT Core,RTX 2080 Ti、RTX 2080可以做到78、60 TOPS,而GTX 1080 Ti、GTX 1080只有可怜的11.3、8.9 TOPS。
显存方面,显示器分辨率不断提高、纹理贴图尺寸更大、渲染技术也越来越复杂、数据交互量非常大、显存带来以及容量大小在影响GPU性能中占比越来越大,为了解决这些瓶颈,NVIDIA首次采用了GDDR6显存。GDDR6继承了GDDR5X中的16bit预取宽度,使用了改进版的QDR 4倍数据倍率技术,GDD6显存速度因此可以抛开GDDR5一大截,而NVIDIA本次在Turing显卡上全部采用14Gbps版本。GDDR6好处显然易见,那就是显存带宽的直线上升,就是为了满足实时光线追踪大量数据交换。举个例子,GTX 1080 Ti 11GB 11Gbps的GDDR5X显存带宽才484GB/s,RTX 2070 8GB 14Gbps的GDDR6显存带宽就有484GB/s,RTX 2080 Ti就更厉害了,带宽都虐了HBM 2,难怪NVIDIA不愿意用HBM 2显存,GDDR6优势明显了。
功耗方面,从Maxwell、Pascal架构开始,NVIDIA开始对显卡功耗进行大刀阔斧地进行改革,一直在给功耗做减法。但Turing架构就没办法了,因为Tensor Core、RT Core的加入,引入了大量额外的晶体管,功耗只能涨了,RTX 2080 Ti Founders Edition是260W,略高于GTX 1080 Ti的250W,需要8+8Pin外接供电;RTX 2080就涨得更多了,需要250W,而上一代同级GTX 1080只要180W,因此供电接口也改为了6+8 Pin。
显示接口方面,I/O接口一直都在不断小型化,臃肿的接口都会面临淘汰的一天,VGA是这样,这一次轮到DVI了,仅保留一个HDMI 2.0b、三个DisplayPort 1.4接口,以及一个新上位的USB Type-C视频输出接口。USB Type-C只是接口形式,内部其实还是走DisplayPort 1.4协议,最高支持8K分辨率。它不仅仅充当视频输出接口,还能传输数据、充电!那就是之前由微软、英伟达、AMD、Oculus、Valve牵头制定的VirtualLink,可以走DisplayPort HBR3协议、USB 3.1 Gen2 (10Gbps)、最高27W供电。能够简化虚拟现实设备的调校准备,比方说HTC Vive本身就需要HDMI、USB 3.0、电源多种线缆,现在一根USB Type -C就搞定了。
价格方面,NVIDIA一直在鼓吹的消费升级,在RTX 20系列显卡中得到了具体体现,RTX 2080 Ti售价已经高达8199元(Founders Edition 9999元),GTX 1080 Ti当初售价不过是5699元,涨幅43%,真的是可怕。RTX 2080也涨到5699元起步,而GTX 1080发售之初只要4599元。可以预期,万元显卡已经成为了新常态。
全新的Turing SM单元——50%性能提升
按照NVIDIA公布的Turing架构亮点可以分为四大部分:全新的内核架构、Tensor Core 、RT Core 、更先进的着色技术,我们将会以这四个作为主线索,跟大家逐一聊聊。
前面我们已经看过Turing GPU两款核心架构框图,你就会发现非比寻常的地方,SM单元组数明显增多。没错,为了实现实时光线追踪,NVIDIA对SM单元进行一场轰轰烈烈的“加减法”。
Turing 图灵架构性亮点
Turing图灵架构采用全新的SM设计——Turing SM单元,与Pascal架构相比,每个CUDA Core性能提升50%,效果显著。
50%的性能提升主要是依靠两个比较关键的技术实现
Turing架构SM单元融合很多Volta架构的特性,比方说一个TPC里面包含了两个SM单元,而在Pascal架构当中只有一个。另一方面,Turing的SM单元内部运算单元有了全新的组份以及分配方式。
在Turing架构中,一个SM拥有64个FP32、64个INT32、8个Tensor Core 、1个RT Core,原本以为FP64单元也彻底消失了,但其实每个SM单元依然配给了2个FP64双精度单元,但是框架图中未画出,保持以往的FP32/FP64的32:1比例,确保兼容性问题。
此外添加了独立的INT数据路径,类似于Volta GV100 GPU的独立线程调度,支持FP32和INT32操作的并发执行。
Turing架构SM单元还为共享缓存、L1缓存、纹理缓存引入了统一架构,可以让L1缓存更充分利用资源。Turing的L1缓存与共享缓存大小是灵活可变的,可以根据需要在64+32KB或者32+64KB之间变换,目的在于减少L1缓存延迟,并提供比Pascal GPU中使用的L1缓存更高的带宽。同时L2缓存容量大大地提升至6MB,是Pascal架构的两倍。
根据NVIDIA官方数据显示,与Pascal架构相比,Turing架构每个TPC带宽命中效果增加2倍。
当前游戏应用程序中一组着色器工作负载的结果
Turing Tensor Core——AI的灵魂
其实Turing里面真的有很多Volta的影子,比如Tensor Core首次出现在Volta架构中,而Turing架构对其进行了增强。还增加了新的INT8和INT4精度模式,FP16半精度也能够被完整支持。
Tensor中文里面就是张量,区别于我们常见的标量(0维)、矢量(1维)、矩阵(2维),张量拥有3维或者更高维,本质核心上就是一个数据容器,可以包含更多维度数据。而目前深度学习就是通过极大量数据运算计算出最终结果,通常会用到矩阵融合乘加(FMA)运算,而Tensor Core区别于ALU整数运算,天生就是为这种矩阵数学运算服务。
它可以将两个4×4 FP16矩阵相乘,然后将结果添加到4×4 FP16或FP32矩阵中,最终输出新的4×4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。
每个Tensor Core可以使用FP16输入在每个时钟执行多达64个浮点融合乘加(FMA)运算,新的INT8精度模式的工作速率是此速率的两倍。Turing Tensor Core为矩阵运算提供了显著的加速,除了新的神经图形功能外,还用于深度学习训练和推理操作。
Tensor Core FP16、INT8、INT4算力,以RTX 2080 Ti为例
Pascal和Turing Tensor Core之间配置比较
NVIDIA将Tensor单元引入到Turing架构当中,意味着可以在游戏中首次实现深度学习。Tensor虽然为深度计算而生,但没有平台框架用不起来的呀。所以NVIDIA又造了个Neural Graphics Acceleration(NGX),专门建立起属于GPU的DNN深度神经网络,用于加速处理游戏中的部分特性,实现游戏也能AI。
有了Tensor Core与NGX的结合,它可以加速实现一些过去非常繁琐功能,可以在游戏中实现诸如深度学习超级采样DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。简直就是万物基于AI的真实写照!
注意NGX的功能与NVIDIA驱动密不可分,很多功能都是依赖于NVIDIA GeForce Experience软件实现的,会自动匹配Turing显卡并且下载NGX Core软件包,并且提供对应服务,比方说深度学习超级采样DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。
深度学习超级采样DLSS:
现在很多游戏画面不是直接渲染得出的,多数都有后处理,也就是各种抗锯齿技术。举个TAA例子,它是一种基于着色器的算法,它使用运动矢量组合两个帧来确定前一帧的采样位置,虽然性能开销差不多,但效果却不如其他AA技术。因此NVIDIA利用Tensor Core开发出了DLSS,实现在较低的输入样本数下更快地渲染,输出渲染画面与TAA质量相似。但由于Tensor Core的加速处理, RTX 2080 Ti的渲染能力要强得多,几乎是GTX 1080 Ti的2倍。
针对每一个游戏,会实现建立起对应的训练网络,收集数千个以64×超级采样生成参考画面,经过对像素点进行64次偏移着色合成输出后,理论上画面细节具有近乎完美的图像效果。同时还会生成正常的渲染图像,然后要求DLSS网络响应输出对应结果,观察与64×超级采样画面差异,调整网络权重,经过多次迭代以后,DLSS自行学习产生的结果将具有与64×超级采样画面相同质量的细节,还可以避免TAA产生的运动模糊等问题。
不过需要明确的是DLSS训练网络运行于NVIDIA的超级计算机上,而非你的显卡,只不过通过GFE下载了这个游戏DLSS网络权重参数,可以用非常低的性能开销复现了超算结果,这就是NVIDIA为什么要在Turing显卡上引入Tensor Core的原因。这同样意味着,每一个游戏都需要事先跑出自己的DLSS网络,然后由NVIDIA通过GFE软件分发给玩家,所以这也是为什么非Turing显卡不能使用DLSS的原因。
NVIDIA表示,DLSS画面效果可以达到2× TAA抗锯齿的水平,性能还能提高一倍;DLSS 2×就更牛逼,它想要创造的传统实时渲染无法做到事情,就是生成输出堪比64倍超取样级别的游戏画面。
首批支持DLSS(大力水手)的游戏,共15款
AI InPainting:说白了就是为了补全图片中缺失的内容,或者是帮你去掉不想要的东西,堪称最强PS抠图!而NGX InPainting算法依赖于来自大量真实世界图像的训练来合成新内容,它同样是运行于超算得出的深度神经网络中。详见我们的新闻——《NVIDIA再出AI黑科技,完美去除图片噪点、水印》
AI Super Rez:它可以将原视频的分辨率清晰地放大2倍、4倍、8倍,图像更加锐利。
AI Slow-Mo:利用AI人工智能技术,可以将普通常见的30fps进行智能插帧计算,可以获得240/480fps的慢动作视频。这个对于视频内容创作者来说可是个巨大福利,在一些需要慢放的镜头不再需要专门高帧率摄像头机,只要通过AI运算就能获得让人觉得流畅慢动作视频。详见我们的新闻——《NVIDIA AI黑科技,30fps可插帧成480fps慢动作视频》
RT Cores——实时光线追踪的“光剑”
Turing非常之多特性都传承于Volta架构,但Volta架构也能实现实时光线追踪。是因为RT Core这一特殊单元的加入,让Turing显卡实现计算机图形学的一大突破,Real-Time Ray Tracing实时光线追踪成为了可能。我们也在超能课堂——《RTX显卡支持的实时光线追踪是什么?》中详细地描述过实时光线追踪是怎么一回事,其效果就不说了,这绝对是Turing显卡的核心灵魂,也是架构的最大进步,以至于NVIDIA利用了非常大的篇幅来描述他们是怎么实现的。
不可否认光栅化在过去功劳,一直以较小的资源开销实现更逼真的光影场景效果,但事实上它是有不可解决的局限性,会在渲染出现违反物理现象的画面,但实时光线追踪是基于物理上的一种密集渲染方式来还原,不存在这缺点。这就是为什么NVIDIA坚持让显卡加入RT Core实现更逼真的游戏场景。正如我们的观点,光栅化与实时光线追踪不是对立的,NVIDIA也认为两者结合是最好的,也就是混合渲染,光栅化用于普通、需要高效处理的场景中,而光线追踪用于最具视觉效果的地方,比方说水面反射、镜子反射、玻璃折射等。
其实不能实现全光线追踪渲染的原因在于,目前显卡性能还达不到要求,因为考虑到场景复杂程度、分辨率、最终效果,不能指望说每个像素都能投射出数百条光线进行渲染计算,算力完全跟不上,只能在次要景物上“偷工减料”,减少投射的光线数目,由于样本数目太少,可能会因为蒙特卡洛积分近似求解中样本数量不足,导致画面会有大量噪点。NVIDIA通过针对极低样本数量的光线追踪结果进行实时降噪的研究,在GameWorks SDK中一个光线追踪降噪模块,也就是Denoising算法。最终可以用比较低样本的光线追踪应用到实时渲染中,最终渲染质量可以媲美大样本下的光线追踪收敛图像。
其实在没有RT Core帮助下,Pascal架构显卡也能实现光线追踪,但效率奇低。主要是因为BVH遍历的过程需要通过着色器操作来执行,并且每个光线投射需要数千个指令来计算BVH中的边界交叉点,直到最终击中三角形。你想想一个像素点有100条光线,一条光线需要数以万计的指令来完成计算,就这处理速度完全达不到实时光线追踪需求。
但RT Core 可以,其实它有点像是Tensor Core那样术业有专攻,只不过是专门为光线追踪计算服务的,实质上它是一条特异化的专用流水线,用于加速计算包围盒层级(BVH)遍历以及光线和三角求交。由于专项专用的ASIC都拥有非常高效的特性,不像CUDA这种通用单元,效率当然有平方级的提升。
RT核心包括两个专用单元:第一个进行包围盒分类计算,第二个进行射线三角求交计算
实现实时光线追踪最大问题就出在求交计算上,场景越复杂、物体数量越多,计算就越耗时间,要达到实时光线追踪,那就必须要得解决求交计算速度问题。高效的实时光线追踪实现主要是从BVH Traversal入手解决,BVH利用数据结构树形式对物体进行分门别类,不断细分。在计算时,光线会寻找被击中的第一个包围盒,再计算里面剩余包围盒,如此往复,直到最终的唯一三角形,。算法就可以大大减少计算每一条光线最近的交点所需要遍历的三角形的数量,在一次渲染中这个预处理只需要进行一次,就可以供所有光线使用。
因此一个SM单元中只需要配备一个RT Core即可,因为SM单元只是个引子,用于启动,剩下的工作全都交由RT Core处理,会自动计算执行BVH遍历以及光线和三角求交,并且向SM单元返回结果,从而节省SM单元执行的数以千计的指令。
同时SM单元可以自由地执行其他任务,比如是顶点生成、计算这色等。因此一个GPC单元中SM单元数目发生重大变化,有可能是与RT Core性能匹配相关,毕竟两者相辅相成,谁跑得太快或者太慢都是不行的。
最后RT Core还要配合GameWorks SDK的光线追踪降噪模块、RTX API等软件层面的协同工作,才能一张Turing显卡就能实现实时光线追踪。
最终RTX 2080 Ti每秒钟可以追踪10G条光线,78T的RTX-OPS;RTX 2080每秒追踪光线降低至8G条,RTX-OPS也降低至60T;RTX 2070每秒能追踪的光线只有6G条,45T RTX-OPS;而Pascal的游戏王者GTX 1080 Ti只能追踪1.1G条光线,RTX-OPS只有11.3T,RT Core性能是非常强劲的。
NVIDIA定义的RTX-OPS性能是这样计算的, RTX-OPS= TENSOR * 20% + FP32 * 80% + RTOPS * 40% + INT32 * 28%
RTX光线追踪效果对比(记住了RTX不一定代表实时光线追踪,还可能是支持DLSS):
先进的渲染技术
Mesh Shading(网格着色):由于现在游戏场景很复杂、规模也很宏大,如果用原本的方式生产三角形,会消耗太多的CPU draw call,而Mesh Shading引入了一种更灵活的模型,可以让开发人员能够规避CPU性能瓶颈并使用更高效的算法来生成三角形,本质上就是Mesh Shader生成三角形给光栅器,不用CPU慢慢跑三角形。
Variable Rate Shading (VRS,比率可变着色):Turing架构引入了一种全新更加灵活的控制着色率的功能,称为VRS可变速率着色。使用VRS,屏幕上每个16×16 像素区域都可以具备不同的着色比率,可以让开发人员使用特别的新算法,实现之前难以实现的着色比率优化,进而提升帧数。
内容自适应着色、运动自适应着色、视网膜中央凹着色
Texture-Space Sharing(TSS,纹理空间着色):TSS技术中,其着色值将会被动态计算并作为纹理空间中的纹素存储起来,当像素被纹理映射,其中屏幕空间中的像素被映射到纹理空间,并且使用标准纹理查找操作对相应的纹素进行采样和过滤。通过这项技术,以完全独立的速率和独立解耦坐标系统对可见性和外观进行采样。使用TSS,开发人员可以重新使用在分离的着色空间中完成的着色计算来提高质量和性能。
Multi-View Rendering (MVR,多视图渲染) :这是Pascal架构上的SMP功能扩展版本,MVR允许从多个视角进行高效的场景绘制,Turing硬件每次通过最多支持四个视角,API级别最多支持32个视角。
GPU BOOST 4.0
在去年的Pascal架构GTX 1000系列显卡中使用了更先进的GPU BOOST 3.0,如果说前两代GPU BOOST技术boost频率幅度不大,那么GPU BOOST 3.0就是飞跃式的进步,boost频率幅度达到300-400MHz更是稀疏平常的事情。这是为什么?那就是频率与电压之间的关系不再是线性,它们是一对一的关系,一个电压值对应一个频率。
如NVIDIA给出的GPU BOOST 3.0示意图,白色实线代表了NVIDIA在BIOS中写死的隐形上限,目前除非硬改PCB电路以外,没有什么办法可以突破它,毕竟这个上限是NVIDIA在硬件上监测到数据结合程序约束住这个上限。
白色虚线是显卡出厂时BIOS中默认提供的基准频率,而绿色虚线则是玩家在使用中实际获得的最高频率。在解除频率与电压之间线性关系后,一对一可调整之后,绿色虚线更加贴近了NVIDIA所设置的隐形上限,从而达到更加高的boost频率,因此Pascal显卡之所以有这么高的运行频率,这个和GPU BOOST 3.0应用不无关系。
GPU Boost 4.0改进的地方在于,增加了用户手动调整GPU Boost曲线的能力。原本这个GPU Boost对于玩家来说是隐形的,集成于每一张显卡驱动内部中,当然像MSI Afterburner这里除外,可以查看V-F曲线。现在GPU Boost 4.0公开了算法,玩家可以手动修改各种曲线本身,以提高GPU的性能。
最大的好处是可以添加了最佳频率节点,在达到功耗、温度上限之前保持最高频率运行,当温度、功耗超过限值就会自动降低频率,保护显卡。目前最先支持调整的修改曲线的软件是EVGA Precision X1,在Precision X1中,Temp Tuner中的所有节点都是可编辑的。
很多玩家都喜欢给显卡超频,但未必所有人都要足够的知识与能力来实现,NVIDIA为此构建了一套新的API,可以利用算法自动测试频率节点稳定性,提供一个可以稳定运行的超频曲线给你,换句话说NVIDIA造了一个一键超频功能,而且是适配于每一张卡,都用独一无二的超频设置。
这套API将会公开给所有显卡厂商使用,他们可以自行研发配套的超频工具,或者使用EVGA Precision X1(现已支持)、MSI Afterburner(4.6.0可能已经支持)这类的通用超频软件。
属于GeForce游戏显卡的NVLink 2.0
NVIDIA过去为两张或者两张以上的显卡SLI连在一起\作单一输出功能设计了SLI桥,采用单个多输入/输出(MIO)接口技术,后期又升级为SLI HB桥(Pascal架构,双MIO接口),带宽为1.95GB/s。
而在另一阶段,NVIDIA为专业显卡、计算卡设计了全新的NVLink,而2016年发布的Tesla P100是首款搭载NVLink的产品,单个GPU具有160GB/s的带宽,相当于PCIe 3.0 ×16带宽的5倍。去年GTC 2017上发布的TeslaV100搭载的NVLink 2.0更是将GPU带宽提升到了300GB/s(六通道),都快是PCIe 3.0 ×16的10倍。
NV说RTX 2080/2080 Ti的NVLink是给你上更高的分辨率用的
这一次,NVLink 2.0将会下放到GeForce游戏上,但目前只有RTX 2080 Ti、RTX 2080才能够享受这一殊荣,毕竟顶级显卡性能足够强才有需要组建多卡系统,NVLink高带宽刚好适合使用。
具体落实到RTX 2080 Ti、RTX 2080上又有区别了,因为NVLink是有双通道的,每个通道单向带宽25GB/s,而双向带宽50GB/s。而RTX 2080 Ti能用双通道,但RTX 2080只能单通道。值得注意,NVLink仅支持双路SLI,不支持三、四或者更多路SLI。
而根据我们从厂商了解到的消息,NVLink桥售价不菲,官方卖79美金,但第三方99美金是跑不了,RGB灯就更加酷炫了。RTX 2080 Ti Founders Edition、RTX 2080 Founders Edition图赏与拆解
其实在今年五六月份的时候,我们就听说过NVIDIA要大改公版设计,废掉了原本“泰坦皮”的模具,换上了新的双风扇散热器,当时我们还挺兴奋的,毕竟NVIDIA终于是要做不一样的东西。
然而到了8月21日正式发布之时,我们在老黄的PPT上看到显卡长这样的时候,却发出“um?怎么感觉有点丑”的声音。是的,光凭一张图,你就觉得RTX Founders Edition显卡质感太差了,满满的塑料感。而事实上,拿到真卡之后,我们当了一次“键盘侠”,因为真卡的无论是视觉上、还是触感上都有了新的飞跃,发出了“真香”的感叹。
包装上与之前的Founders Edition显卡都是一样,没有内包装盒,显卡直接插在底座上。虽然这种包装成本很高,但满满的开箱仪式感,让玩家感受到这种高X格,不愧是卖那么贵的Founders Edition显卡。
GTX 10时代的Founders Edition包装有个坏毛病,开合几次过后,说明书全都皱了。这一次RTX 20 Founders Edition显卡就用个小盒子装起来,小小的一本快速安装指南,附送一根HDMI转DVI线。
显卡本体原本是有塑料膜的,类似于苹果iPhone的包裹方式,而非静电袋,意味着塑料膜是一次性,拆开了就会被发现,杜绝二手显卡。RTX 20 Founders Edition显卡质感真的很棒,分量也很重,足有1.3Kg。主要是外壳采用了大量的铝合金,加上背板营造的一体式效果。
装配精度不仅高,而且处处彰显着细节,比如说铝壳都有做倒边处理,不割手而且还能形成一道高光线,点缀显卡。
很多人戏称这一代的Founders Edition显卡长得像煤气灶,确实有几分神韵。两只风扇叶片确实像飞机的发动机风扇,而且还是13叶设计,NVIDIA表示经过重新设计后,产生的气流是普通风扇的3倍,是典型的风量扇,而且还能保持安静运行,终于不用忍受原本涡轮式高转速下的“喧嚣”。
不过中间竖置的RTX 2080有些违和,奇奇怪怪的。
NVIDAI终于将背板做成了一体式的,多了一些装饰用的开槽,挺漂亮的。
PCIE挡板做了黑化处理,也打上了NVIDIA LOGO。DisplayPort 1.4a ×3,HDMI 2.0b ×1,USB-C ×1,一共五个视频输出接口。
Founders Edition显卡真的是处处彰显细节,NVLink金手指部分都隐藏起来了,和之前的星战版一样做了个盖子,可以与显卡外观融为一体。
标准的双槽设计,从顶部观察,可以内部整齐划一的镀黑散热鳍片,RTX 2080 Ti是双8 Pin外接供电,RTX 2080是6+8 Pin外接供电。
认住啦,金手指上面打着NVIDIA Logo标的基本上都是公版PCB方案。
拆解过程很繁琐,不仅仅是因为螺丝多,而且是用内六角螺丝固定,一般人都没有这种螺丝刀头。拆开背板以后,发现背板竟然非常之薄,而且对于大发热位置都有散热硅垫辅助导热。
散热器就不用说了,全尺寸均热板,NVIDIA真的大手笔,可以将热量更快传递到散热片上,而且针对每一个显存、关键IC、MosFET都设计有凸起,加上导热硅垫。不过这种导热硅垫都是一次性的,拆了以后你就还原不了原始状态,散热器效果肯定是大打折扣的,所以大家还是别拆了。
这个散热鳍片贼好看,拆解来自NVIDIA官方
看看PCB,这一次NVIDIA肯定是下足功夫了,颇有AMD RX Vega公版显卡风范,用料也是史无前例地豪华。
RTX 2080 Ti配备的TU102-300A核心,11GB 镁光GDDR6显存;RTX 2080配备的TU104-350A核心,8GB 美光GDDR6显存。
VRM供电上达到空前的规模,RTX 2080 Ti使用了10+3相iMON DrMos供电,RTX 2080由于TDP稍低,使用8+2相供电。DrMos来自安森美的FDMF 3160,PWM控制器也是全新的uP9512,具有独立8个PWM控制通道,而它还可以在实现亚毫秒级电源管理,在低功耗时可以关断几个通路,节省用电。
由于不想破坏另一张显卡散热器,故没有拆解,用官方照片表示一下,有亮点
测试平台说明:
我们选用了Intel Core i7-8700K作为处理器,算是高端游戏中的最常见处理器,六核十二线程绝对是游戏杀手,还有3.7GHz不错的基础频率,睿频也能达到4.7GHz水平。因为可能需要超频,因此选用了九州风神堡垒240一体式水冷。主板选用了微星的Z370 Gaming Pro Carbon,内存是准备一套四根的芝奇幻光戟 8GB 3200MHz,一块Intel 600p 512 GB SSD作为系统盘,游戏盘为2TB的希捷。电源是安钛克的HCG850,配合酷冷至尊的MasterCase H500M机箱。
系统是最新的Microsoft Windows 10 Build 1803,一定要最新并且开启开发者模式,不然光线追踪是运行不起来;驱动程序方面,GTX 1080 Ti、GTX 1080使用GeForce 399.24 Drive WHQL,而RTX 2080 Ti、RTX 2080则是为发布的GeForce 411.51WHQL(未知是否为正式版驱动)。
测试项目包括常规的3DMark(Fire Strike、Time Spy)、Unigine Superposition,由于RTX 2080 Ti、RTX 2080的性能非常强大,已经满足了VR体验要求,也加入了VRMark测试。此外还有14款涵盖性能要求、游戏类型不同的游戏,还会分别测试在1080P、2K、4K分辨率下游戏成绩。
基准性能测试:
3DMark可以说是显卡界中的黄金比例尺,无论什么显卡都可以很好地衡量其性能表现。不过这一次图灵显卡出现了比较令人惊奇的成绩表现,因为它们在4K分辨率、DirectX 12 API下表现远超CUDA规模差异上限,十分亮眼。
我们直接看成绩,以GTX 1080作为参考基准成绩,影驰GTX 1080 Ti成绩浮动在GTX 1080的131-139%之间,RTX 2080 Founders Edition则是125-149%,RTX 2080 TiFounders Edition在157-194%之间,可以看出Turing显卡成绩浮动大于Pascal显卡,主要出现在Time Spy、Extreme Time Spy这两个项目中。
刨除掉显存宽带、频率、架构上的差异,那么性能表现应该是与CUDA规模挂钩的,可Turing显卡偏偏遇强越强,特别是4K项目,表现已经远超CUDA规模差异比例。
不过在Unigine Superposition测试中,运行1080P High画质,Turing显卡性能提升也出乎意料高。
NVIDIA提到了Turing显卡也为VR进行了诸多优化,在进行VRMark测试时跳过了是个中端显卡都能过的Orange Room,直接测试要求更高的Cyan Room、Blue Room。Cyan Room我们之前也测试过,GTX 1080 Ti勉强及格,但RTX 2080、RTX 2080 Ti表现勇猛,分别达到247fps、299fps,意味着目前VR大作都可以无忧运行。在战未来的Blue Room测试中,图灵显卡依然保持这种趋势,RTX 2080 Ti确实可以达到战未来级别。
在这种高度不确定性下,我们很难用统一准则评价RTX 2080、RTX 2080 Ti性能高低,非要做个平均,RTX 2080为GTX 1080的134%,RTX 2080 Ti为GTX 1080的173%,比GTX 1080 Ti高出38%,可以看出,这一代Turing显卡对比Pascal显卡同级别显卡,性能增幅也是在35%之间。
1920×1080分辨率游戏测试:
在13款游戏的1080P分辨率测试下,发现Turing显卡有个奇怪之处,就是性能与Pascal同级别显卡拉不开差距,甚至四张卡成绩挤在一起的问题,表现远远不如在基准测试中那样,虽然其中一定有驱动优化问题,NVIDIA提醒可能是CPU拖后腿,这个我们后期会做更加详细的性能测试,但不可否认Turing显卡在1080P分辨率下确实有点问题。
2560×1440分辨率游戏测试:
2K分辨率下,RTX 2080 Ti、RTX 2080表现好多了,特别是《中土世界》、《古墓丽影》、《全面战争》表现更好,但也有表现不佳的地方,如《GTA 5》、《孤岛惊魂5》。
3840×2160分辨率游戏测试:
轮到4K分辨率测试时,Turing显卡们爆发了真正的实力,基本上都是以绝对优势取胜,绝大部分游戏都有非常好的表现。尽管是最高画质,除了《全面战争》、《荒野行动》、《杀出重围》都是接近50Fps外,其余所有游戏都能达到60fps,考虑到《杀出重围》、《全面战争》benchmark要求高于实际运行,其实也可以视作进入了60fps范畴。也难怪NVIDIA敢说“Turing is build for 4K”,极致画质下4K@60fps算是完美达成了。
超频测试:
上一代Pascal显卡频率设定非常残暴,平均频率提升在40%,而且上大部分显卡Boost频率都能在风冷条件下轻松突破2GHz。不过在这种“预官方”超频下,留给玩家的超频空间就十分有限了。
今年的Turing显卡基础频率虽然不高,但是Boost频率非常高,加上GPU boost 频率加成,估计也能超2GHz,不过超频空间也不大,毕竟12nm工艺不是全新工艺,频率提升依然充满未知之数。
超频测试中,测试采用3DMark Fire Strike,超频软件使用大家耳熟能详的微星超频软件MSI Afterburner,没用EVGA Precision X1的原因很简单,因为在我们测试平台上会莫名其妙闪退,就是NVIDIA新增的频率扫描功能,运行一会就软件闪退了,这个之后我们会详细做测试,出一个超频教程。
超频前将温度控制、功耗上限均拉至最高。RTX 2080 Ti Founders Edition功耗限制在250W以内,最高可调整至123%,即320W;RTX 2080 Ti Founders Edition功耗限制在250W以内,最高可调整至124%,即310W
由于第一次超频Turing核心、GDDR6显存,还是挺小心翼翼地一点点超频,通过不断尝试,将GPU核心频率、GDDR6显存频率不断上调,直到该频率不能通过3DMark Fire Strike测试为止,记录前一个可通过测试的超频频率。
果然Founders Edition显卡超频幅度也不多,顶天了10%,但GDDR6超频能力强悍,+600MHz即等效15.2Gbps也能通过测试,但超过14.8Gbps以后成绩变化不大,甚至会有所下降,有性能天花板。
最终RTX 2080 Ti Founders Edition在核心频率+80MHz,显存+500MHz情况下通过3DMark所有测试,此时Boost频率已经高达2075MHz,GDDR6显存频率提升至15Gbps。成绩最高提升10%
RTX 2080由于频率设定较高,超频幅度就更小一点,核心+65MHz、显存+500MHz通过测试,Boost频率最高到过2.1GHz,GDDR6显存15.2Gbps,成绩同样最高提升10%。
当然了,由于时间关系,我们的超频还是很粗暴的,没有达到NVIDIA所说的一步步调节,让频率稳定在更极限情况上,因此超频后性能提升会差那么一点。
实时光线追踪&DLSS体验:
由于目前支持RTX游戏尚未大规模上市,而且还有想《古墓丽影:暗影》这种跳票等补丁的,我们很难为大家带来第一手性能测试,只能通过NVIDIA官方演示过的一些Demo与大家分享一项RTX的乐趣。
实时光线追踪体验——Star Wars Reflections
这个就是NVIDIA在现场演示的星球大战Demo,不仅仅展示了实时光线追踪在游戏中的应用可以达到近乎CG级别的画质,还糅合了DLSS抗锯齿。由于Demo限制了所有帧数指示工具、视频录制,只能通过给出的OSD观察帧数变化,为此,我们制作了以下视频为大家分析下RTX 2080 Ti、RTX 2080实时光线追踪性能。
RTX 2080 Ti在2K分辨率下,依然可以有50-60fps,属于相当流畅级别;4K分辨率下降至25-30fps,RTX 2080 Ti也有点不够看了,部分场景会跌至25fps。
RTX 2080性能在2K分辨率勉强够看,有50fps,如果分辨率提升4K,就会长时间处于不流畅状态。
就效果而言,光线追踪确实是给人非常真实的感受,真的和电影、CG看到的场景非常相像,真假分不清,不过我们也注意到部分物体上出现了噪点现象,这个可能就是光线追踪算法造成的,尽管经过了NVIDIA降噪处理,但有时候你还忽略不了,结果画面就有种胶片电影的味道。
DLSS体验——Epic Infiltrator Demo
DLSS抗锯齿只能应用于图灵显卡以及4K游戏画面上,目前绝大部分支持RTX技术的游戏,都是支持这个抗锯齿,好处前面也说了,我们来看看DLSS与TAA抗锯齿在显卡性能上的损耗。
其实大部分时间DLSS与TAA帧数差别不到,只有在比较复杂特别场景才会出现明显的差异,比如视频里第六十秒时候,DLSS有60帧,而TAA只有30帧不到。而且可以看到使用DLSS GPU负载会低一些,其实应该就是DLSS后处理抗锯齿交给了Tensor Core工作,GPU算力得到释放。
温度&功耗测试:
功耗测试:
通过我们专门购置的显卡功耗测试仪器,可以分别精确地测量显卡PCI-E、外接电源接口瓦特数,显卡最大功耗在3DMark Fire Strike压力测试中获得,待机功耗则是在进入系统后记录3分钟取平均值。
从单独显卡功耗测试结果看到,RTX 2080 Ti待机状态下功耗为25.5W,RTX 2080待机19.8W,比起上一代Pascal显卡都要更高一些。
满载时,RTX 2080 Ti Founders Edition功耗峰值在264.9W,平均功耗263.1W,略高于标称的250W TDP;RTX 2080峰值功耗233.6W,平均功耗231.4W,略低于标称的250W TDP。功耗不低,加上CPU等硬件开销,500W的电源是最低限度。
温度测试:
在温度测试过程中,测试时全程进行封箱处理,测试环境温度约为25.5℃。待机温度是开机以后记录10分钟,满载温度则是完成3DMark Fire Strike压力测试后记录下。
其实大家应该都猜到结局的,涡轮散热的泰坦皮有很多毛病,热量积聚、噪音大,这一次改成了双风扇散热,温度表现肯定好多了,除非图灵核心非非非常热!
事实证明,双风扇散热器下的RTX 2080 Ti Founders Edition、RTX 2080 Founders Edition表现完美,待机分别为36℃、34℃。
当使用3DMark Fire Strike压力测试时,GPU核心基本处于满载状态,因此可以很好考验显卡散热能力。满载情况下RTX 2080 Ti Founders Edition温度为80℃,RTX 2080 Founders Edition 78℃,均比NVIDIA设定的83℃保护温度低,显然留给大家超频留出了温度余量,GPU BOOST 4.0更加看重温度上限影响。不过背板非常烫手,大家注意了,要是能装个小风扇就更好了。
总结:
Turing图灵显卡可以说是怀揣着NVIDIA梦想的作品,融入了时下流行的AI人工智能技术以及支持实时光线追踪,这其实已经很了不起了。让看似距离我们依然十分遥远的AI人工智能以及实时光线追踪,在一瞬间拉倒我们的面前,在发布会当时听到的瞬间还是颇为震撼。
在性能上,RTX 2080 Ti、RTX 2080显卡在前期对1080P普通游戏支持较差,主要战场集中在了更高分辨率的2K、4K上,性能表现超出预期。但是RTX 2080 Ti、RTX 2080显卡岂是志在于此?
目标当然是即将到来的一大波支持实时光线追踪、DLSS的游戏啦,尽管目前它们还在途中,但是通过演示的Demo来看,效果真的非常棒,尤其是实时光线追踪的Star Wars Reflections Demo,很多编辑看完都在问,这画面真的是实时渲染的嘛?感觉和离线渲染的CG一样,画面太逼真了。
平民百姓都能玩AI?是的,基于AI深度学习得来DLSS就是这样的技术,能让画面精细、清晰程度有了新突破,还节省性能,简直太美妙了。
可能很多人都在觉得这两个功能有点鸡肋,犹如当年的PhysX物理加速,其实大家的担心是正常的,毕竟当时PhysX还需要另一张显卡辅助才能流畅运行,但随后显卡性能不断提高,单卡就能完成,场景物体的物理碰撞已经成为常态。实时光线追踪也会走上这条路,经过几代更迭以后,光线追踪性能不断增长,游戏开发商肯定也更加愿意做这种增强游戏画面的事情,实时光线追踪再过几年可能会成为游戏的标配效果,我们开始体验更加真实的游戏画面。
RTX 20系列的Founders Edition显卡在温度上也绝对不会让你失望,双风扇镇压下的Turing核心犹如温顺的小猫咪,满载78、80℃,而且噪音非常低,比普通机箱风扇还要安静,NVIDIA认真做起事来还是挺牛的。
至于价格嘛,一分钱一分货,一角钱三分货。NVIDIA都给大家打好了预防针,Turing显卡便宜不了,确实是,RTX 2080最低售价去到了5699元,而GTX 1080当年仅仅4099元,RTX 2080 Ti就不用说了,8199元售价直逼Titan Xp系列。虽然我们以前就说GTX 1080 Ti就能战4K游戏,如此看来还是勉强了以一些,毕竟新游戏更加吃显卡性能,也是显卡不断推陈出新的动力,RTX 2080 Ti以更完美的姿势为大家呈现4K游戏、VR游戏。手持GTX 10系列显卡的你们可以观望游戏界发展,再决定要不要升级,一旦支持RTX技术的游戏爆发式增长,RTX 20系列显卡的优势方能体现。
在AMD高端显卡不给力的日子,NVIDIA确实牢牢霸占住游戏卡皇的地位,NVIDIA真的可以有恃无恐。但NVIDIA没有停下脚步,做出一些不太一样的东西,做前人没有完成的实时光线追踪,做出游戏玩家都能用的AI技术,这就足够了,显卡需要一点新玩意。
本次的评测可能不够详尽,拿到驱动的时间非常紧迫,加上目前支持RTX技术游戏还没发布,我们之后会陆续补充更多关于NVIDIA RTX图灵显卡的测试,也欢迎大家给出测试建议。