AMD喜迎50周年 全方位施放“大招”
对于AMD来说,2019年注定是一个不平凡的年份:这可不仅仅是因为这家老牌芯片企业刚刚迎来自己的50周岁生日。更源自于其近年来在产品力上的巨大升级,令无数消费者重新迎来了高性价比、高性能的计算与游戏体验,更促进了市场良性竞争环境的重新形成、加速了新技术的更新换代。也正因为如此,大量的电脑爱好者近年来都对AMD“路转粉”,甚至忍不住要赞上一声:
AMD,Yes!
平心而论,在我们为Zen架构、为锐龙处理器、为Radeon VII的性能飞跃和良心定价而欢呼的时候,大部分人其实都已经忘记了AMD研发团队曾经遭受的误解和批评,更鲜有人知道他们是如何在过去的几年时间里默默地积攒着力量,只为了那有朝一日的扬眉吐气。
E3大展前,当AMD在洛杉矶举行的 “NEXT HORIZON GAMING”大型活动上,正式披露了第三代锐龙桌面处理器的技术细节,更发布了七年来全新RDNA架构的Radeon RX5700系列显卡之后。一切的隐忍、长达十年甚至更久的技术积淀、以及那个关于融合计算与游戏、融合CPU与GPU的伟大规划,终于全部迎来了它们应有的回报。,现在AMD人终于可以昂着头说“我们终于拿回了属于自己的东西”
对于现代图形处理器(GPU)而言,单纯的多边形生成能力早已不再是唯一的性能指标。一方面来说,内容创作者与游戏玩家在“计算”与“显示”需求上的不同侧重,迫使GPU设计方向需要同时兼顾两种不同运算模式的性能表现;而另一方面来说,随着半导体制造成本的提高和消费者性能需求的持续增长,单纯依靠“堆料”实现性能进步的时代早已一去不复返。
而这也就意味着,对于曾在ATi/AMD工作了十四年,领导研发出了从R300到HD7970在内的历代经典显卡架构的业界大神Daivid Wang和他现在的团队来说,摆在他们面前的课题,便是要设计一款既具备在计算和图形两方面性能弹性的GPU架构,同时还要保证其具备高能效和和较低的制造成本。
好在,作为受人尊敬的资深从业者,David和他的同事们即便是面临着极大的压力,也依然做到了对于用户户需求的深刻洞悉和对当今业界前沿技术的再度突破。在紧迫的时间和巨大的市场压力下,最终呈现在我们面前的,就是全新的、令人感到融合了AMD 过往技术精髓、同时又充分面向未来需求的RDNA显卡架构,以及我们当前所看到的,首批运用这一新架构的Radeon RX5700系列显卡。
又一个经典的“小核心大能量”
回顾AMD显卡的历史不难发现,高能效、定位精准的小核心设计曾经数次帮助Radeon GPU名利双收:从最初的HD3870、HD4860到后来的HD6970乃至近年来的RX400、RX500系列,莫不是小核心高性能的优秀代表。
就在不久之前,AMD推出了全球首款采用7nm制程的桌面显卡Radeon VII,它从某种意义上来说,其实是旗舰Vega大核心在新制程下的“重制增强版”。而相比之下,全新的RX5700系列才是真正继GCN之后的新架构,同时也是AMD又一次以中小规模的核心作为新技术首发的实例。
RX5700系列的核心有多小?根据AMD公布的官方数据显示,采用7nm制程的它核心面积仅为251平方毫米,相比之下此前的14nm旗舰RX Vega64核心面积高达495平方毫米,几乎是前者的两倍。然而,与老旗舰相比,RX5700XT的绝对性能提高了15%,同时功耗下降了23%。这就意味着它的能效达到了Vega64的150%,而单位面积上的性能更是Vega64的2.3倍之多。
在进一步对比中,RX5700XT能在1440P分辨率下达到相当于此前Vega56显卡在1080P设置下的帧率,甚至还略有领先。正因为如此,AMD骄傲地将全新的Navi10(也就是RX5700系列)称之为当前最好的1440P分辨率游戏显卡。
全新RDNA架构:诀窍在于给“工头”减负
RX5700系列的“能量”从何而来?可能很多人首先想到的是7nm的制程红利。但实际上根据官方资料显示,在此次新显卡的性能提升中,来自制程的直接好处只占了不到30%,来自频率提升的因素只有10%多一点,而高达60%的性能增长幅度都源自全新的架构设计。而这,自然也就让人对AMD图形部门此次隆重推出的全新架构——RDNA,有了更多的好奇心。
RDNA是AMD的第五代Radeon显卡架构
首先需要明确的是,按照AMD方面的代际划分,RDNA架构属于AMD显卡自诞生以来的第五个大世代。和此前的GCN架构相比,RDNA这一次最大的改变就是它更加注重计算性能,甚至可以说是首次将一块显卡的计算能力和图形显示能力放到了完全对等的地位上。之所以这么说,秘密就在于RDNA架构执行单元的大幅改动和它首创的“双计算单元(Dual Compute Unit)”设计上。
CU内部结构:GCN对比RDNA
七年前,AMD在初代GCN(HD7970)中设计了由一组标量(Scalar)单元和四组矢量(Vector)单元组成的计算单元(Compute Unit)作为架构的“模块化”构成单位。其中,每一个CU内含一个标量单元和四组矢量单元,每组矢量单元由16个算术逻辑单元(ALU)构成。当然,ALU在我们的俗称中,就是所谓的“流处理器(SP)”,GCN架构的每个CU含64个SP,就是这么来的。
这样的架构有什么好处呢?通俗地说,理论上GCN架构每个时钟周期应该能够同步进行4个线程的16宽度算术逻辑运算。这看起来效率很高,但问题就在于,对于当前的主流通用计算编程而言,很多时候计算宽度需要的是64宽度的运算。一旦遇到这种情况,GCN架构需要将其拆分成4个16宽度(这其实没有问题)运算来进行指派。但是由于GCN架构的标量单元数量不足(一个标量单元需要对应四组矢量单元),这就可能导致CU内部需要花费四个时钟周期分别进行任务指派和运算,如此一来,不仅运算耗时变成了四倍,而且每个时钟周期都有75%的矢量单元处于闲置状态,效率就相对较低。
相比GCN,RDNA在部分场景下有着四倍的效率
为了解决这个问题,RDNA架构最大的改进之处,就在于将每个CU内部的标量与矢量单元组数量对应关系从原来的1:4改成了2:2——现在,RDNA架构的每个CU还是包含64个流处理器,但是它不再被分为四组,而是被分成了两组,每组32宽度。与此同时,RDNA架构加倍了每组CU内部的标量单元数量,现在每一个32流处理器构成的矢量单元组都拥有了自己的标量单元。当再次遇到64宽度的运算需求时,两个标量单元能够同时将其拆分为两个32宽度运算,同时交由各自的矢量单元组运行。如此一来,在执行64宽度指令时,RDNA的每一个CU只需要一个时钟周期就能完成,效率提升了三倍。
打一个通俗的比方的话,以前GCN架构内部的每一个“车间(CU,计算单元)”只有一个工头(标量单元)指挥四队共64名工人,而现在的RDNA架构改成了两个工头指挥两队共64名工人——是不是效率就高很多了呢?
缓存与色彩压缩改进:不止于2K分辨率
在重新优化了计算单元之后,RDNA架构理论上已经拥有了比GCN高得多的计算效率。但是,至少在当前的RX5700系列显卡中,RDNA架构又面临着一个新的掣肘:显存带宽。
是的,这一次RX5700全系标配了位宽256bit的GDDR6显存,这让它在面对潜在对手RTX2070时一点也不虚。但大家都知道,今年年初的Radeon VII可是有着4096bit的HBM2超高带宽显存技术加持。就算目前的RDNA新架构显卡定位并非旗舰,但可想而知的是,AMD显然还引入了新技术,来让全新架构在内部缓存带宽上不至于输给“前旗舰”。
这个新技术,就是本次RX5700系列全新设计的多级缓存结构。首先,AMD的图形团队为RDNA架构增加了一个独特的L1缓存。不同于传统多级缓存中L1只能充当L0(0级缓存)的备份和缓冲作用,RDNA架构的L1缓存既可以被L0缓存读取和写入,也能同时直接被ALU(算术逻辑单元)读取和写入。这样一来,就相当于在ALU和L0直接额外多了一个容量更大的缓冲池,变相增加了L0缓存的等效带宽。
华硕为AMD推出的世界首款支持DSC压缩技术的大尺寸4K游戏显示器
其次,虽然AMD声称如今的RX5700系列是为2K分辨率游戏设计,但他们还是在新架构的多级缓存、显存、显示引擎和光栅化单元间大量运用了DCC色彩压缩算法。这意味着RX5700系列表面上看起来“只有”256bit位宽的GDDR6显存,在实际使用中却能发挥出超常规的吞吐量,从而轻松支撑起4K、高帧率、HDR游戏所需的显示带宽。
硬件也得软件配:这次AMD又良心了
有了全新设计的第五代图形计算架构作为支撑,AMD这次可不仅仅只是推出了全新的中高端“小钢炮”这么简单。要知道,与新硬件伴生的,当然还有全新的软件和功能体验。
颇为有趣的是,尽管AMD用了很大篇幅在数天的发布会里强调RDNA新架构的计算性能,但毕竟这是在E3展前,AMD自然懂得游戏玩家们希望看到的是什么。因此,与Radeon RX5700共同宣布的,还有AMD全新的三大游戏黑科技:AMD Fidelity FX开源图像质量工具包、Radeon Image Sharpening游戏后处理锐化算法以及Radeon Anti-Lag游戏抗延迟技术。
Image Sharpening的对比效果
其中,Fidelity FX和Image Sharpening都旨在改善游戏画面对比度和清晰度,只不过一个是供开发者使用的特效,而另一个则属于后期着色技术,将会直接集成在未来的Radeon ADRENALIN 19.7.1驱动中,让广大玩家们体验不会降低帧率,只需一键开启,游戏立刻“高清化”的神奇效果。
相比之下,Radeon Anti-Lag游戏抗延迟技术想必会让电竞选手们欢呼雀跃:从原理上来说,它有点像是CPU和GPU之间的“垂直同步”——通过调整CPU对于键鼠点击操作的相应节奏使其与显卡的渲染同步, Anti-Lag技术能将键鼠输入到屏幕显示的延迟降低30%以上。这是什么概念呢 ?它其实就有点类似我们手机、平板上的“触摸跟手度”—那种即点即开、指哪打哪的感觉,说不定甚至比换一套更好的键鼠带来的改变都还要更加明显。当然,如果说有了Radeon Anti-Lag,玩游戏还是感觉不跟手,那或许就真的意味着你该换一套键鼠,或者换一颗更好的CPU了~
第三代锐龙处理器,新架构更胜新制程
说到CPU,就不得不提到AMD如今备受关注的第三代锐龙桌面处理器了。在此前的台北电脑展上,我们已经见识到了全新锐龙处理器大为进步的多核心规格、真正追平甚至反超竞争对手的单核心性能。不过,在这次的NEXT HORIZON GAMING活动期间,我们还是首次得以一窥全新Zen2架构的诸多技术细节。
一个CCD Die,也就是八核心型号
两个,自然就是最大十六核心了
比如说,相比于此前的Zen与Zen+架构,Zen2最大的特征在于其将CPU的计算模块与包含内存控制器、PCIE通道控制器、CPU模块间互联控制器等在内的IO模块进行了物理上的分割。其中计算模块以最新的7nm工艺制造,换来双倍的密度和相同性能下大降50%的功耗水准(当然这也就意味着更高的主频成为了可能)。而IO模块则采用12nm打造,从而使这些原本就不需要高频率的功能组件成本得到有效控制,自然也就使得新款CPU的性价比更上一层楼了。
当然,对PC技术敏锐的朋友们可能看出来了——把包含内存控制器的IO模块从CPU里“拿”出来,这不就是许多年前的北桥芯片吗?事实上,早在台北电脑展之后,就曾有媒体好奇Zen2架构的外置内存控制器设计是否会对CPU的延迟性能造成影响。针对这一点,AMD此次也终于做出了明确的解答:事实上,得益于大大增加的总线带宽和翻倍的三级缓存,如今的三代锐龙处理器不仅内存延迟大为减少,甚至就连此前一直表现欠佳的内存超频潜力也实现了大翻身。据官方数据显示,三代锐龙的内存控制器可以轻松支持到DDR4 5100MHz以上的超高频率,而如果是对延迟敏感的用户,AMD则建议搭配DDR4 3200 C14或者DDR4 3600 C16的内存来使用。这在过去都是只有少数旗舰主板才能勉强达到的高频率,如今随着三代锐龙台式机处理器的推出,也有望成为一般消费者都能享受到的性能表现了。
除了外置IO模块之外,本次的三代锐龙处理器在计算核心本身的架构上也同样进行了大刀阔斧的改动。其中,最显著的便是引入了近年来学术界热门的TAGE(TAgged GEometric history length)分支预测器,作为CPU设计领域的前沿技术,TAGE预测器仅需要少量增加芯片面积,便能换来大幅度的性能和功耗改善。而三代锐龙处理器本身有着7nm的新制程“撑腰”,用起这一技术自然是毫无顾忌。再加上新增对AVX256浮点指令的支持,使得这一次的锐龙处理器在专业多媒体处理性能上也有极大幅度的提升,配合改进的超线程能力(算术逻辑单元与地址生成单元的比例从4:2增加到了4:3),最终令Zen2架构的三代锐龙处理器收获了高达15%的每时钟周期性能提升。
事实上,AMD对于这一次的CPU架构革新也十分满意,以至于他们认为在本次Zen 2架构的性能提升中,新制程所作出的贡献,还远远比不上新架构带来的改变。换句话说,无论是理论分析还是实际性能,都再一次批驳了那些认为AMD的新产品仅仅只是得益于“制程红利”的观点。
50周年的AMD,正在全方位地“放大招”
在本次AMD NEXT HORIZON GAMING活动的伊始,被中国网民们昵称“苏妈”的AMD CEO苏姿丰博士便骄傲地宣称,AMD是当前唯一一家能同时在PC、主机、云端和移动市场领导游戏技术发展方向的企业。
事实上,关注AMD的朋友们可能都知道,就在前不久,AMD接连收获了包括索尼次世代主机PS5、谷歌云游戏服务、三星未来移动GPU项目在内的多个大单,充分证明了其技术的先进性与产品的高性价比。
就在本次活动上,作为50周年大庆的“献礼”,AMD一口气拿出了多款意料之外的重磅产品,包括限定的Radeon RX5700XT 50周年纪念版显卡,此前一直深藏不露的16核32线程锐龙9 3950X旗舰处理器,换用金属导热材质、支持全新自动超频技术的锐龙5 3400G APU等硬件新品,以及给消费者带来进一步免费福利的Radeon Image Sharpening游戏画质提升技术、Radeon Anti-Lag游戏抗延迟技术、带有更多专业超频功能、且不限定主板品牌的全新BIOS等等软件功能和应用。
除此之外,伴随着AMD锐龙处理器、Radeon GPU如今在个人电脑与数据中心市场的高速成长,它们也收获了比过去更多的合作伙伴。就在前不久,微软刚刚全面推送了Windows 10 的2019年五月版更新,它其中的一个隐藏属性,便是针对AMD锐龙处理器进行了大量优化工作:包括更快速精准的主频控制、更智能的CCX核心调度策略等。单此一次系统更新,便可以让锐龙处理器在部分游戏中的帧率提高15%,多个应用打开的速度加快6%……而这一切,都反映出了当前AMD产品竞争力越来越强,大有逐渐掌控主流市场技术方向的趋势。
43年前(1976年),AMD与Intel达成专利相互授权,从此打下了“双强鼎立”的基础;38年前(1981年),AMD制造的芯片进入航天飞机,创业不过12年的企业得到了最高级别的质量认可;20年前,初代速龙处理器发布,性能逆袭的神话由此展开;13年前,AMD收购ATi,艰难的融合之道自此开启;2年前,初代Ryzen(锐龙)处理器发布,AMD吹响了技术与市场双重反攻的号角……而现在,当曾经的硅谷叛逆者们已然成长为一家有着50年辉煌历史,产品线覆盖几乎所有电子娱乐领域的技术巨头时,AMD却依然没有放松进取的步伐。
截止至本文截稿,AMD股价再次回到历史最高位区域的33.23美元,而我们三易生活也见证了苏妈担任CEO以来AMD股价狂飙20倍的奇迹。因此此次在洛杉矶的活动现场,当两个系列新品亮相时,也不由得在心里默默喊出了“AMD, YES!”
推荐阅读:
手机厂商太懒?谷歌不惜得罪用户“接管”系统更新
谷歌在安卓Q中引入Project Mainline功能后,系统更新或不再需要担心。