MCPLive > 杂志文章 > “海盗”来袭 AMD下代显卡核心技术前瞻

“海盗”来袭 AMD下代显卡核心技术前瞻

2014-07-02晓明《微型计算机》2014年6月上

海盗岛不再坚持小核心策略?

追求更高的计算性能一直是半导体芯片的设计初衷,所以AMD让新一代显卡的计算单元暴增无可厚非。而协调存储、计算能力让它们基本平衡,也一直是让半导体芯片发挥出佳性能的主要设计原则。因此,AMD为计算性能暴涨的“百慕大”配备夸张的高频率512bit显存系统原本也无可厚非。只是这有可能会让一些玩家觉得这次的“海盗岛”和AMD继Radeon HD 2900XTX之后启用的“小核心”策略有些相悖。

了解显卡技术的玩家都知道,无论AMD还是NVIDIA的显示芯片,其主要代工厂都是TSMC(台积电)。而近年来显示芯片的半导体工艺提速已经不如以前那么快,物理极限的逼近让工艺提升变得更加困难,良率也难以保证。实际上从2011年底,TSMC(台积电)开始用28nm工艺为AMD代工Radeon HD 7970显示核心至今,TSMC的显卡芯片量产工艺依旧停留在28nm水平。在此期间,AMD的显示核心已经由Tahiti(HD7970)升级到了现在的Hawaii(R929 0X)。值得注意的是,这两代显卡的基础架构都是GCN(前者为GCN1.0,后者为GCN1.1),所以基
本上R9 290X相对HD 7970的改变就是增加更多晶体管,更多的计算单元和更大的显存控制器位宽。在工艺保持28nm不变的前提下,我们看到R9 290X的核心达到438mm2,比HD 7970的365mm2高出20%。分析晶体管数量,R9 290X拥有62亿,HD 7970仅43亿,前者比后者高出44%左右,远远超过芯片面积的提升比例。也就是说TSMC的28nm工艺虽未换代,但新设计加上工艺改良还是让芯片的晶体管密度获得了较大提升。这也终让R9 290X能比HD 7970多出768个流处理器(提升幅度37.5%)和128bit显存位宽(提升幅度33.3%)。

然而从现在曝光的R9 390X看,其流处理器个数在R9 290X基础上提升1408个,提升幅度50%,远高于R9 290X相对HD 7970的提升。其它诸如纹理单元、光栅单元也一并大幅增长。更重要的是,据悉以“百慕大”核心为代表的下代AMD显卡架构是大幅改良的GCN,改进幅度比HD 7970到R9 290X更大,预计会称为GCN2.0架构。但依旧基于GCN则基本意味着运算单元的框架设计不会有颠覆性改变,因此大致可以从R9 290X的规格推算出R9 390X的晶体管数量会增加50%甚至更多。也就是说“百慕大”核心的晶体管数量极有可能是100亿水平。就算制造工艺还能提供晶体管提升44%,芯片面积只提升20%的优秀水平,那R9 390X也很有可能会是个庞然大物,甚至可能达到600mm2或更高。

HBM与3DS两种3D堆栈式规范
HBM与3DS两种3D堆栈式规范

新卡皇新工艺,20nm Ready?

实际上,TSMC能在初代28nm工艺的基础上,将其逐渐完善,并在制造R9 290X时提供远超初代芯片密度的水平已经难能可贵。而这也基本意味着TSMC的28nm工艺已经成熟,很难再有进一步提升,顶多是让晶圆的瑕疵更少,良率更高。很显然,这样的工艺根本不可能用于海盗岛家族的制造,芯片大小和发热量将难以控制。要想保持晶体管密度的增长,只能依靠线密度更小的新工艺,也许20nm会是AMD的终选择。

据了解,其实台积电已经在2013年7月的时候就已经使用了20nm工艺帮客户小批量试产芯片。到2013年底的时候,已经基本具备了量产能力。只是初期工艺都只面对一些晶体管数量相对较少,核心较小的产品,难以保证在面对如GPU这样对性能要求极高的大芯片时,还能保证足够的量产良率和半导体质量。当然,TSMC也不会闲着,其20nm晶圆厂从去年至今一直都处于安装新设备、更新工艺水平的升级中。计划2014年第一季度就能每月生产5万片晶圆,其中2万片可以在以后升级到16nm工艺。能向下代工艺过渡,也就意味着工艺成熟度接近极限,也即是说至少今年2季度起,TSMC的20nm工艺已经能够胜任高性能芯片的生产需求,只是说要想大规模量产估计还需要时间。而这也有可能是AMD计划在今年内只推出顶级R9 390X的一个重要原因,很可能代工厂TSMC的产能和良率难以满足“海盗岛”家族的全线来袭。

半导体产业从来都是芯片未动、工艺先行,“海盗岛”的成败,跟代工厂TSMC的工艺水平息息相关。
半导体产业从来都是芯片未动、工艺先行,“海盗岛”的成败,跟代工厂TSMC的工艺水平息息相关。

2014微软GDC大会宣布了Direct X 12,AMD是毫无疑问的核心合作伙伴。

2014微软GDC大会宣布了Direct X 12,AMD是毫无疑问的核心合作伙伴。

DirectX 12顺理成章

还有就是有关Direct X特性的问题,新一代显示核心都会搭配改良的Direct X技术,几乎成为业界不成文的规矩。这一次,不同于上两次DirectX技术的小修小补,从DirectX 11到DirectX 11.1、DirectX 11.2的变化,而是又到了大幅更新换代的时节。微软已经在今年的GDC大会上正式发布了新一代的DirectX 12,在此之后才会发布的“海盗岛”没有理由不支持新一代API。实际上根据微软的介绍,DirectX 12很特别,是个不太挑硬件的全新A PI。此前NVIDIA就确认除了新发布的基于Maxwell架构的GTX750系列显卡外,包括上代的开普勒甚至更上一代的费米架构都能提供对Direct X12的支持。也就是说从4、5年前的GeForce 200起,之后的显卡均能支持该特效。而AMD方面,也是从第一代GCN架构开始,就能提供对DirectX 12的支持。当然,相比NVIDIA,AMD这次显得更加轻车熟路,因为DirectX 12的大特色——底层API优化可以说正是借鉴了AMD的Mantle API设计思路。

新的DirectX 12赋予了游戏开发者追踪GPU流水线、控制资源状态转换、控制资源重命名的控制权,并通过减少API和驱动跟踪、显存控制权等手段提高底层执行效率,防止帧速陡降或者短暂挂起等问题。这种优化底部硬件与软件调度层的方式,和Mantle API极为类似。当然AMD无疑对自己的产品更加了解,优化程度更高但很难适用于其他GPU产品。而微软的优化显然要考虑到更广泛的兼容性,很难针对某一架构优化到佳状态。但AMD新架构显卡显然能借此在更多不支持Mantle API的游戏中获得更好的现。另外,DirectX 12针对多核CPU深度优化,基本能为多核处理器带来线性性能增长,这能有效改善游戏对处理器的利用效率,有助于新卡皇的性能发挥不再受制于处理器性能瓶颈。

超过50%的性能提升?值得期待的终性能

虽说已经初步曝光了“海盗岛”中高端显示核心的主要规格,但难保AMD不会终改变计划。就算规格参数完全按照当前曝光的设计,我们也只能从当前已知的GCN1.1架构来大概推测R9 390X能获得比R9 290X高出约40~50%的性能。然而当前并没有更多关于GCN2.0架构的详细信息曝光,我们难以获得GCN2.0架构的准确特性,也就无法获知计算单元数量相等的情况下,GCN2.0相对GCN1.1的性能增幅;也不可能知道更多类似TrueAudio、曲面细分单元比等更详细的特性增删或者提升幅度。唯一可以肯定的是,AMD显然不会让新架构的效率比老产品更低,而且AMD特地准备的超高显存带宽也正是为了消除数据传输瓶颈,让核心的计算性能更好地发挥。倘若一切顺利,我们应该能看到新旗舰有超过老旗舰50%的性能水平,而新显卡的次旗舰,即R9 380X都能获得超越当前旗舰的实力。现在AMD已经布局完毕,很显然,NVIDIA也不会毫无准备。不知道已经在主流级市场试水成功的Maxwell新架构是否会有新的动作,NVIDIA难道不想将Maxwell出色的能耗比带入到顶级显卡领域?无论如何,今年下半年将上演的新一轮显卡王座之争都值得玩家们期待!

TIPS:“海盗岛”的高频显存源自HBM技术?

AMD已经在R9 290X上成功实现了512bit显存位宽设计,并且通过设计优化,让这个原本会占据大量芯片面积的单元成功瘦身,同工艺下竟比HD 7970上使用的384bit显存控制器面积还小20%。但缺陷也显而易见,当前的设计和工艺难以让显存频率工作在足够高的水平上,主流产品皆能工作在6000MHz,部分高端型号已经突破了7000MHz,而R9 290X的显存频率仅5000MHz。当然,512bit的位宽,弥补了显存频率的不足,依旧能为R9 290X提供当前出色的显存带宽。但让下代R9 390X依旧搭配如此规格,就显然无法满足暴增的计算单元对显存带宽的需求了。继续增加显存位宽?这可能会导致芯片面积过大,成本、发热都过高,甚至难产的问题。相对来说,3D堆栈式存储将是一种更稳妥有效的解决方案。实际上AMD和Hynix联合开发3D堆栈式内存有一段时间了,他们想将FPGA和传感器领域已经实践的堆栈式设计应用到高性能计算领域中,对CPU、GPU和APU等设备产生影响。目前的研究主要有3DS和HBM两个方向。其中3DS强调成本与速度的均衡,针对主内存,而HBM(high bandwidth memory,高带宽记忆体)追求极限高带宽,适合图形和网络高性能计算。年初时Hynix公司首席工程师Minsuk Suh就已经表示HBM相关规范基本完善,结合上现在曝光的R9 390X将搭载频率高达7000MHz的512bit显存规格,我们估计“海盗岛”可能已经用上了HBM。HBM其实也是基于TSV硅穿孔技术,因此具备支持多线路1024通道读写的特性,能提供高密度的高带宽存储。更重要的是,相比当前显卡上使用的GDDR5显存,HBM能在提高65%总体性能的同时,还能将功耗降低40%甚至更多。

分享到:

用户评论

用户名:

密码: