它的规格降低了,性能却提升了;它以小博大,是史上性能功耗比为强大的产品;它就是Maxwell,在2014年2月18日,NVIDIA正式向全球发布了Maxwell架构下的首款核心GM107。目前基于该核心的一共有两款产品,分别是GeForce GTX 750Ti和GeForce GTX 750。
Max well首次出现是在2010年的NVIDIA GTC大会上,NVIDIA预告了Kepler和Maxwell这两款GPU非常有限的消息。在当时NVIDIA的路线图上,Kepler将于2011年发布,Maxwell将于2013年发布。Maxwell每瓦特双精度浮点性能将是当时Fermi的8倍,Kepler的2.5倍。不过事实却是Kepler于2012年发布,而新的Maxwell则被拖到2014年才发布。造成这两个系列产品比预定时间晚推出一年的原因都是因为工艺不成熟。不过耐人寻味的是,Maxwell并没有使用传言中的20nm或22nm工艺。
造成这种情况的原因有两个:其一是20nm制程工艺直到2013年底、2014年初才逐渐成熟。考虑到芯片流片到测试、投产等问题,NVIDIA肯定无法等待如此长的时间,因此采用成熟的28nm制造小核心来抢夺市场份额才是正确的选择。其二是20nm成本极其高昂,制程转换投资高达70~110亿美元,终带来的芯片面积降低所节约的成本,甚至无法抵扣高额的制造成本带来的价格上升,尤其是20nm早期肯定会面临良品率低、成本高等问题,因此NVIDIA没有使用20nm生产GPU也是经过多方面的考虑。不过即使使用的是28nm工艺,Maxwell所展现的惊人性能功耗比也是之前所有GPU所不具备的。
在正式了解Maxwell之前,我们先来看看有关NVIDIA在策略方面的两个问题。首先是产品策略问题。NVIDIA在之前的GT200、Fermi家族上吃了工艺的亏以后,对工艺和产品搭配就越来越谨慎了。在之前的Kepler上,NVIDIA没有首发大核心GK110,而是首发了中端核心GK104。在这次的Maxwell上,NVIDIA并没有发布中端或者大核心产品,而是一改常态首先发布了GM107这款小核心产品。但不管是首发小核心产品,还是首发中端核心,都说明NVIDIA在新品的发布上更加慎重,先用它们去试水,随后再推出工艺更加成熟的大核心产品。
其次是NVIDIA的宣传策略。从产品角度来看,由于小核心首发,展示给用户的Maxwell架构的信息就不是那么全面了。对于这种面向普通用户设计的小核心产品,NVIDIA一贯都很明确地将其定位为“游戏产品”,一些之前传言很可能出现在Maxwell上的高级技术比如更强大的双精度浮点性能、统一寻址、更强悍的通用计算架构设计等统统都会被精简掉。当然,Maxwell的基础结构还是存在的。
但不得不吐槽的是,NVIDIA官方近年来披露的资料远没有之前详实,尤其是饱受诟病的晶圆图和架构图,基本上已经沦为“广告宣传图”。在本次Maxwell的GM107的官方PDF中,有关架构的介绍更是精简到极致,整个产品架构图除了能数出和宣传数量相同的流处理器外,其他有关架构方面的内容实在是太少了。相比老对手AMD还耐心地画出了每个CU单元的结构,NVIDIA这一点就不那么令人满意了。因此,本文会在官方发布内容的基础上,做出一些尝试性的推测分析。当然,如果NVIDIA能在GTC 2014上公布Maxwell更为详细的内容的话,那还是很有看头的。
下面言归正传,本文将对GM107核心进行深入的解读。从编号就可以看出,这是一颗用于替代GK107的小核心产品。
目前GM107核心分为GM107-300和GM107-400两款产品,其中GM107-400是全规格的核心,前者由于市场定位或者良率的问题被屏蔽了部分核心模块。此外,根据之前的惯例来看,GM107-400-A2的“A2”,表示目前销售的GM107核心已经不是首次流片的产品。至少是第三次流片后更为成熟的核心。一般来说设计完成后的A0版本会留作DEBUG和调试使用,随后的A1版本才有可能正式上市。不过如果A1还不理想的话,那么A2版本会修补之前A1版本的问
题和缺陷。考虑每次流片少需要三个月时间才能从台积电返回NVIDIA,那么目前我们看到的GM107完成纸面设计的时间差不多在2013年初。从规格可以看出,Maxwell架构的神奇之处如下:
1.GM107相比GK107,流处理器增加了67%,缓存从GK107的256KB(GK107)大幅度提升到G M107的2048KB,可是芯片面积却只增加了25%。
2.Max well的功耗大幅度降低。以GM107为例,它在性能显著提升的情况下,功耗不增反降,甚至公版连6pin都取消了,还拥有不俗的超频潜力。这是之前所有同代工艺的显卡上完全不曾发生的事情。
那么,Maxwell是如何做到这样强悍的性能和超低功耗的呢?这和Maxwell的架构改进有什么关系呢?下面我们来看看它内部的秘密。
在Maxwell上,一个SMM中还额外分出了四个CUDA Core组,同时降低了CUDA Core单元的数量,这样做有利于提高性能功耗比。
国外网站Anandtech以更为明朗的方式对比了Maxwell(左)和Kepler(右)的架构图。用个不算太恰当的比喻来说,如果Maxwell的SMM是“小而精”的话,Kepler的SMX就是“傻而大”。