MCPLive > 杂志文章 > 见证"芯"路 30年CPU架构发展史(二)

见证"芯"路 30年CPU架构发展史(二)

2011-11-29Janlen《微型计算机》2011年11月上

在《见证"芯"路 30年CPU架构发展史(一) 》一文中,我们谈的是英特尔过去三十年间的发展史,这一篇我们谈的是一直充当英特尔竞争对手的AMD。这家公司奇特的地方就在于屡败屡战,同时屡有出格的夸张宣传。不过如果你了解AMD的创建者,硅谷里大名鼎鼎的杰瑞·桑德斯,一定会对AMD的这种文化抱以深度理解—在英特尔孤独地垄断市场的那些岁月,正是AMD让我们看到了变革的希望,即便你是英特尔的铁杆支持者,也不得不承认AMD的存在总是让英特尔不得不保持前进,同时也让它在某些时候不得不打降价牌。如果单从市值来看,AMD只是英特尔的零头,比如在它意气风发的2002年,英特尔公司市场价值2050亿美元,AMD刚好是它的零头:50亿美元。英特尔每年都盈利几十亿美元,而AMD三天两头都在亏损,不过这家奇怪的公司不仅生存下来,而且又重新变得非常强大。

创业传奇:屡败屡战植入AMD血脉

AMD的创建者杰瑞. 桑德斯(Jerry Sanders),同英特尔创始人安迪·格罗夫、戈登·摩尔、罗伯特·诺伊斯都曾在仙童半导体就职。杰瑞·桑德斯是一位富有传奇色彩的营销大师,它对市场的把握能力甚至曾经连乔布斯也不敢争锋,不过换个角度说就是杰瑞·桑德斯是技术的外行,但这并不妨碍它成为创业团队信赖的领导,也不妨碍AMD的成功。

和许多传奇人物一样,桑德斯有一个坎坷的童年,他出生在好莱坞,母亲生他时年仅15岁,父亲是交通路灯修理工。小桑德斯在不到五岁时,父母就离异,他不得不和母亲过着颠沛流离的生活。后来,母亲也离开了他,桑德斯就投奔了祖父母。学生时代的桑德斯成绩出众,但常常卷入打架斗殴。“我经常卷入争斗,是因为我经常失败。”桑德斯回忆说。桑德斯的斗争精神在过去34年来一直为人们津津乐道。富有传奇色彩的故事是他曾经在芝加哥街头与人混战,被打得头破血流,不省人事,连牧师都准备帮他举行默祷超渡时,他却又奇迹般地活了过来——当你看到这里,便会知道AMD的屡败屡战事出有因,这种顽强更多只是一种生活习惯,渗透进AMD的文化基因里。

图1 AMD创始人杰瑞·桑德斯
图1 AMD创始人杰瑞·桑德斯

成年后的桑德斯曾在道格拉斯飞机公司当过空调系统设计师。但是这个打工仔一天到晚做白日梦:他希望能拥有自己的别墅,开着豪华的汽车,拿到丰厚的薪金。他很快就发现干营销比工程师赚钱要快得多,于是他大胆地跑去摩托罗拉应聘当销售经理,结果一流的口才让他被顺利录取。事实证明,桑德斯绝对是硅谷六七十年代一等一的推销高手,没多久他被挖进了仙童公司。

到上世纪60年代末,仙童公司发生了内部分裂,IT业界出现了三家对后来半导体发展举足轻重的公司:国家半导体、英特尔和AMD。其中,国家半导体由查理·史波克和皮埃尔·罗蒙德组建,高层精明而实际;英特尔则拥有诺依斯、摩尔和格鲁夫三大技术干将,讲究团体智慧;而AMD的创业则充满了磨难、奋斗以及与生俱来的坚韧。因为AMD早的总部是设在一个创业者的家中,所以AMD的企业文化也被人叫做“客厅文化”。

AMD的创立更多是一种无奈,当时桑德斯被突然解雇,他一下子陷入经济困境,直到有一天,与桑德斯境况相似的约翰·凯里主动找到他,两个人合计要成立一家半导体企业。首要的事情就是去筹集资金,结果他东奔西跑只筹集到5万美元,同英特尔500万美元的起步资金完全无法比拟。当初极其坚韧的桑德斯便是在这样的困境之下起步,一个天才的销售人员,进入了他不擅长的半导体领域。

在创办初期,AMD的主要业务是为其它公司重新设计产品,提高它们的速度和效率,并以“第二供应商”的方式向市场提供这些产品,他们大的优势就是在于能够让自己的产品比竞争对手更加可靠。任何一个产品的检测都是根据军方MIL-STD-883标准进行的,他们提供了业内前所未有的品质保证,并且不会加收任何费用。凭借可靠性的特长,AMD也在半导体市场站稳了脚跟,并开始进入正轨。在AMD创立五周年时,AMD已经拥有1500名员工,生产200多种不同的产品。其中很多都是AMD自行开发的,年销售额将近2650万美元。1979年,AMD公司股票在纽约证券交易所上市,此时的AMD已经拥有多个半导体工厂,年销售超过1亿美元。

AMD后来的历程广为人知,它进入了x86处理器市场,并且开始与英特尔长达30年的缠斗。在这30年间,AMD占据上风的时间几乎寥寥无几,但它始终没有退缩过。对于AMD的故事,土生土长的硅谷人迈克尔·马龙的评价或许为恰当:“在所有的高科技故事中,AMD的故事是可怕,也是英勇的。它年复一年,代复一代,顽强地挑战某个星球上成功、具竞争力的公司。”

从Am386到K6-3:向x86的转身

AMD进入x86处理器行业同样纯属偶然,当年IBM将订单交给英特尔,但英特尔自身的产能根本无法满足需要。而英特尔高层和AMD高层都是仙童的老相识,英特尔很自然地找到AMD请求帮忙,并且答应给AMD新的CPU资料,换句话说,AMD这个强硬对手其实是英特尔的无心之作。

为了说服AMD,英特尔干脆与AMD签署x86系列微处理器的技术交换协议,显然这是一份慷慨的永久性授权——当然那时的x86处理器根本就是无足轻重的小角色,英特尔自身都没有想过有一天它居然能够击败RISC占据主导地位。这份协议的内容是:AMD为英特尔生产既定数量的微处理器,英特尔除了支付报酬外,还向对方分享微处理器的资料。就这样,AMD在随后的几年为英特尔生产了大量的286处理器(代号为AM286),AMD也因此拥有英特尔x86处理器的全部秘密。

然而,这个协议在履行几年之后就宣告中断,英特尔忌惮AMD进入这个市场,成为自己强有力的竞争对手,所以不再将x86处理器的资料交给AMD,而AMD也因此不再为英特尔生产微处理器。终双方闹上法庭,这场官司从1987年开始,直到1992年才结束,AMD终获得生产和销售386系列芯片的权力——这个诉讼案的胜利也就是AMD今天能够自由生产x86处理器,不会像VIA、NVIDIA一样总是被英特尔以x86专利进行威胁的原因。

1985年,AMD进入《财富》杂志500强,此时距离桑德斯创立公司已经过去了16年光阴,但这16年只能算是AMD的起步阶段,它的辉煌其实刚刚开始。也是在这一年,英特尔推出风光无匹的80386处理器,引发PC厂商的热烈追随,在随后的几年,英特尔就一举取代IBM,成为PC业真正的领袖。此时此刻,AMD终于坐不住了,桑德斯决定进入386市场,从英特尔手中分得一杯羹。1991年,AMD的Am386处理器正式发布,英特尔垄断局面被证实打破,就在推出的当年,AMD就销售出超过百万片Am386芯片,这对桑德斯是个巨大的鼓舞。

图2 Am486处理器
图2 Am486处理器

Am386在架构上是英特尔80386的克隆版本,也就是二者基本完全相同。1993年,AMD的Am486处理器诞生,它的特点就是高性价比——在提供相同性能的条件下,Am486具有20%的价格优势,这让它赢来大量的客户,康柏公司就在1994年与AMD达成长期战略联盟,在康柏电脑中大量搭载AMD的处理器,让英特尔吃了一记闷拳。

Am486的频率从25MHz开始,高到120MHz,此时其性能甚至接近英特尔早期的Pentium处理器。1995年,AMD接着推出AM5x86处理器,它其实只是Am486的高频版本,主频达到133MHz。Am5x86的制作工艺为0.35微米,拥有16KB的L1 Cahce,整体延续了性价比竞争的路线。

真正能与Pent ium同级的处理器便是K5。K5早在1994年的微处理器论坛中亮相,它也是AMD第一款真正完全由自身设计和生产的x86处理器,显然AMD在K5开发中吃尽了苦头,导致其直到1996年才得以发布,比英特尔Pent ium晚了许多。K5的性能非常一般,整数运算能力不如Cyrix的6x86,虽然比Penitum还算略强,但浮点性能就远远比不上Pentium。更糟的是,K5的良品率较低,工作主频高只能到116MHz,PR(实际性能标称)值为166,而Pentium可是货真价值能跑到200MHz。总体而言,K5是一款实力非常平庸的产品,它仍然只是依靠低价格来吸引消费者。

相对于K5,AMD在1997年推出的K6处理器水平就要高出一截,K6也是AMD后一款采用英特尔兼容总线的产品,它集成了930万个晶体管,拥有64KB一级缓存(32KB指令集和32KB数据),流水线长度为6级,工作主频在150MHz~400MHz,接口方式为Socket 7。K6的实际性能令人满意,它的整数性能超过当时的Pentium-MMX,不过浮点性能仍然仅为同频率英特尔处理器的一半左右。

K6初期采用的是0.35微米制造工艺,后期改用了0.25微米,K6家族真正迎来辉煌还是著名的K6-2处理器。K6-2的设计目的是作为Pentium Ⅱ的竞争对手,为此它增强了浮点性能,并引入AMD第一套浮点单指令多数据指令集,也就是著名的3DNow!这套指令集获得很大的反响,并成功地提升了K6-2处理器在运行3D渲染时的性能表现。

几乎所有K6-2都是在100MHz前端总线的Super 7平台上开发,它的主频从300MHz起步,后来陆续推出400MHz、450MHz和500MHz的版本。这其中K6-2 300MHz的受欢迎度高,并在零售市场获得热卖,AMD的市场影响力也是从K6-2时代开始的。K6-2 300的竞争对手是著名的Celeron 300A,后者通过削减缓存容量降低了成本,但它具有卓越的浮点性能。这两者凭借强大的超频能力,当时在市场中都极受欢迎,共同原因都是具有一流的性价比——当时的Pentium Ⅱ尽管性能更加出色,但它的价格却要高出不少。

图3 著名的K6-2处理器,为AMD立下汗马功劳。
图3 著名的K6-2处理器,为AMD立下汗马功劳。

当英特尔带来Pent ium Ⅲ的时候,K6-2已经明显力不从心,当时Athlon仍在开发阶段,为了抵御对手AMD对K6进行新一轮的升级,推出了K6-3。K6-3在K6-2基础上增加了256KB的二级缓存,原先内建于主板的缓存则自动变为三级缓存,此举显著提升了K6-3的整数性能表现,但对其浮点性能并没有多少帮助。K6-3的市场寿命较短,当Athlon出现之后,K6-3就迅速退出市场。

Am386到K6-3,AMD从一个x86微处理器领域的跟随者,成长为一家独立的处理器设计厂商,尤其是在K6-2时代的优良业绩让AMD获得了良好的市场基础和财政稳定性,为日后发布Athlon做好了充分的准备。

K7出世:AMD崭露头角

AMD不再被人称为逆向工程专家,始于K7时代。在这个时代中,AMD实现了性能上的全面超越,给竞争对手带来巨大的威胁;同时也将市场拓展到高端的双路服务器、主流台式机PC、低端的廉价PC以及笔记本电脑市场。芯片组方面,AMD也获得来自VIA、NVIDIA和ATI的支持,初步具备与英特尔全面对抗的实力。

1998年,AMD正式发布代号为K7的Athlon处理器(中文名为“速龙”),这在AMD史上称得上是一个里程碑。领导K7开发团队的就是AMD的前任CEO Dirk Meyer(德克·梅耶尔),此人曾是DEC ALPHA处理器的首席设计师,所以Athlon在很多程度上继承了ALPHA的血统,尽管它仍然是x86处理器。德克·梅耶尔1995年加入AMD,并在2008年成为AMD的CEO,但在2011年1月即引咎离职,原因在于他在任期间忽视了平板电脑、智能手机等移动市场,当然这是后话。

我们先来看看K7的体系结构:第一,它拥有3个并行的x86指令解码器,可以同时发射3条指令,这一点同Pentium Ⅲ是一致的。其次,K7拥有9个独立的超标量执行管线,分别为3个整数、3个地址和3个浮点,其中整数流水线为10级,浮点流水线为15级,较长的流水线对于提升主频相当有帮助;第三,K7的一级缓存容量多达128KB(64KB指令+64KB数据),支持512KB~8MB的二级缓存,两级缓存的数据并不重叠。第四,K7支持扩展的3DNow!指令集,主要改进在于新增了5条新的指令,用于增强其在DSP方面的性能,并且让K7系列处理器能够模拟SSE,对SSE指令集进行解码。

图4 Slot A封装的第一代Athlon处理器。
图4 Slot A封装的第一代Athlon处理器。

K7的前端总线设计也明显优于Pentium Ⅲ,后者采用的是GTL+系统总线协议,而K7采用了DEC公司的的Alpha系统总线协议EV6。EV6总线可支持点对点布局,有着更优秀的构造;其次,EV6总线可以工作在200MHz频率下,而Pentium Ⅲ当时的外频只有100MHz,更高的外频意味着更大的内存吞吐量,终使得K7成为第一个从DDR内存中受益的处理器。

第一代经典型Athlon处理器采用插槽式的Slot A接口,板载二级缓存,它表现出强劲的整数性能和浮点性能,第一次可以在速度上战胜对手。同时,Athlon保有良好的性价比优势,在它发布之后立刻成为市场的焦点。不过,第一代Athlon仍然不够完善,比如CPU的发热量较大,缺乏成熟的芯片组支持也是致命伤,而在这一领域,VIA给过AMD大量的支持,当然VIA自身也受益匪浅。制造工艺方面,Athlon首先采用0.25微米,包括500MHz、650MHz和700MHz三个版本,都拥有半速256KB二级缓存;等到750MHz版本之后,AMD就升级至0.18微米工艺,而由于缺乏高达350MHz~400MHz的缓存,AMD不得不降低缓存的速度。750MHz、800 MHz、850 MHz的Athlon有一个2/5的缓存分配器—必须提到的是,AMD在2000年推出850MHz的Athlon,第一次在主频方面领先对手,这对它说也是个巨大的胜利。当AMD想再一次提高Athlon的速度时,他们又遇到了同样的问题,即缓存速度太低,于是他们再次将缓存速度降低到原来的1/3——经典版Athlon 900MHz、Athlon 950MHz和1GHz用的都是1/3缓存分配器。这种折衷措施让AMD第一次赢得频率大战,Athlon也成为第一款主频突破1GHz大关的CPU,当时的Pentium 3 Coppermine 866MHz根本无法与Athlon 1GHz对抗,Athlon就成为当时市场上速度快的处理器,这是英特尔第一次遭遇败绩。

面对这种情况,英特尔感到相当的恐慌,于是它们将二级缓存加到了Pent ium Ⅲ内部电路板中以加快缓存的速度,并抛弃了Slot 1接口改为Socket 370,这也就是著名的Pentium Ⅲ Coppermine处理器。Coppermine终于在主频上赶上AMD的脚步,性能也获得微幅的领先。不过英特尔来不及松口气,因为AMD专门对付Coppermine的“Thunderbird”K7内核也接着出现了。

2000年6月,代号为“Thunderbird(雷鸟)”的新一代K7处理器发布,这是第二代Athlon。Thunderbird Athlon改用插座式的Socket A接口,CPU则是采用陶瓷封装—在接口方面,AMD还是一直追随竞争对手的脚步,直到现在依然如此。与Pentium Ⅲ Coppermine类似,Thunderbird将二级缓存直接集成于芯片上,容量仍为256KB,二级缓存得以全速运行,性能提升非常显著。同时,Thunderbird也具有Athlon家族具有的强大超频能力,这一点让它饱受发烧友追捧。同时,为了与低端的Celeron处理器对抗,AMD也推出缓存减半的Duron(毒龙)处理器,它同样在性能方面取得优势。

Thunderbird也主要依赖VIA的芯片组支持,但该平台在成熟度上不及英特尔,关键的磁盘性能一直都相对落后,并且缺乏温控功能,CPU可能出现烧毁事件。PC业界自然对这样的产品不太放心,所以Thunderbird时代的Athlon主要活跃在零售市场,规模更大的OEM领域一直为英特尔所把持。Thunderbird Athlon的主频从650MHz开始,高截至1.4GHz,随后它被新一代内核“Palomino”所取代。

图5 代号“Thunderbird”的第二代Athlon处理器
图5 代号“Thunderbird”的第二代Athlon处理器

Palomino内核发布于2001年10月,它采用0.18微米制造工艺,核心电压为1.75V左右,二级缓存为256KB,封装方式采用OPGA,前端总线频率为266MHz。该内核的处理器也从“Athlon”更名为“Athlon XP”,这个模仿“Windows XP”的命名方式一向都是营销高手桑德斯的爱。Palomino核心Athlon XP的目标已经是Pentium 4处理器,它启用了PR标识,以扭转频率低在宣传上的劣势。Palomino在架构上仍然承袭Thunderbird,仅仅作了一些改良设计比如:增加温度监控电路、降低功耗和功率、支持SSE指令集、改良数据预取技术、提高缓存TLB的数据命中率等,处理器的封装也该为有机塑料的OPGA。这一代处理器的PR从1500+到2100+,之后被0.13微米的Thoroughbred所取代,后者由于使用新工艺,发热量更低,超频能力更强,但架构上没有什么革新。

图6 Barton核心的Athlon XP处理器,见证了K7时代的巅峰。
图6 Barton核心的Athlon XP处理器,见证了K7时代的巅峰。

著名的“Bar ton”是后一代K7核心,它发布于2002年秋,Bar ton的改进就是将二级缓存提升到512KB,外频有166MHz和200MHz两种,PR在2500+到3200+之间。Barton Athlon XP拥有强悍的性能,超频能力也十分杰出,但遗憾的是容易烧毁和核心缺乏保护的缺点依然存在,另外它的性能已经落后于英特尔同时代的Pentium 4了—显然,AMD推出新一代架构的时间到了。值得一提的是,在Barton时代,NVIDIA的nForce2芯片组成为当红大热,加上原有的VIA芯片组,AMD已经拥有成熟的芯片组平台支持。

也是在2002年,年迈的桑德斯辞去首席执行官的职务,AMD结束了一个时代,海克特·鲁毅智接替桑德斯成为新的CEO。

K8降临:实现由弱至强的华丽转身

2003年9月,AMD传说已久的K8架构正式出炉,这也是AMD第八代x86处理器—K8完全贯彻了AMD自主的开发思想,支持64位x86指令,集成内存控制器的大胆设计意味着AMD成为技术风潮的领导者。K8时代一直延续至今,AMD完成了从英特尔的二流对手到能够与它完全分庭抗礼的地位。在这期间,AMD处理器从台式机PC拓展到高性能计算机、服务器、笔记本电脑等领域,同英特尔进行针锋相对的对等竞争,这一点在后来人所共知。

1.K8架构的特点

K8架构有许多独创性,其中关键点集中在64位x86指令、整合内存控制器与HyperTransport总线三个方面。我们知道,32位x86是英特尔在386时代创下的,但此后英特尔一直没有将x86扩展到64位的想法,英特尔甚至顽固地认为64位应该只给服务器市场,比如它的Itanium平台;32位用于PC,两者壁垒分明。在当时,只有高端的RISC处理器才有64位的设计,但AMD的开发团队认为64位x86是一种趋势,赶在竞争对手之前推出也可以在宣传上占据制高点。另一方面,64位指令系统不仅效能更高,而且可以管理超过4GB容量的内存——在当时4GB内存看起来大得不可思议,但今天我们回过头来,足以感受到AMD的确富有远见。

内存控制器原本是北桥芯片的功能,它主要负责内存的管理。在RISC系统中,内存控制器往往被直接整合入CPU内,这样做的好处是可以将内存响应延迟降低一半,从而显著提升系统的整体性能,缺点是失去了搭配的灵活性。在当时,内存与CPU是彼此不同的系统,芯片组厂商才是决定者,用户也更喜欢灵活搭配的法则。AMD这一次同样作风大胆,将内存控制器整合于K8内核中,这项设计也令K8架构拥有极出色的指令效能,终也迫使英特尔不得不追随。

图7 AMD64架构将x86处理器推向新的高度,AMD也由此获得与英特尔分庭抗礼的地位。
图7 AMD64架构将x86处理器推向新的高度,AMD也由此获得与英特尔分庭抗礼的地位。

K7使用的是EV6总线技术作为前端总线,但在K8系统中,用于CPU-内存传输的前端总线已经不复存在,CPU和内存能够直接沟通,但此外CPU需要另外一种方式同芯片组以及其他的处理器相连—HyperTransport就是专为此目的开发的总线。它采用点对点串行设计,并以DDR方式工作,比如800MHz频率、16位的HyperTranspor t总线,就能提供高达6.4GB/s的带宽,并且极具拓展空间。HyperTransport总线对于AMD的服务器平台业务居功至伟,在它的帮助下,AMD可以方便地建立起任意多路Opteron系统,令Opteron在后来得以进入超级计算机市场。

除了这三项根本性的改进,K8在微架构方面也有明显提升,它依然采用三发射设计,不过其整数流水线长度提升到12级,浮点流水线则提高到17级,均比K7提高了两级,为进一步的频率提升打下基础,又保证了指令性能。其次,K8拥有128KB一级缓存和1MB二级缓存,二级缓存容量比之前的Barton增加了一倍。此外,K8可以支持增强3DNow!、SSE、SSE2指令集。至于K7易烧毁、易损坏的问题也获得完满解决:K8的封装在CPU芯片上增加了金属保护盖,内部增加温控电路,另外还增加了Cool ‘n’ Queit节能技术。

K8架构衍生出台式机的Athlon 64、服务器的Opteron和移动版的Athlon 64-M,经过多次升级和名称变动,但更多只是制造工艺、二级缓存等规格的调整,架构本身并未作多少改动——总之,在单核心时代中,K8系列同样击败同时期的Pentium 4,这个市场优势一直延续到2006年底Core微架构的出现。

图8 Athlon 64 X2处理器,两个CPU内核可以直接交换数据,无须绕道经过内存。
图8 Athlon 64 X2处理器,两个CPU内核可以直接交换数据,无须绕道经过内存。

K8时代的双核处理器Athlon 64 X2诞生于2005年5月,当时AMD掀起了“真双核”的论战,寓意指对手的Pentium D是拼凑的货色,结果英特尔愚蠢地进行回应使口水战升级,AMD接着大张旗鼓邀请英特尔参加“双核决斗”,并找了一堆评测机构。英特尔终无奈表示希望事情终结,结果这场口水战看起来就是AMD销售人员出题,英特尔工程师老实回答的游戏。但就技术层面而言,Athlon 64 X2采用RISC处理器的做法,让两个核心分享一套内存控制器,多核协作高效进行;而Pentium D的双核沟通效率低下,加上自身效能不济,就被对手打得灰头土脸。

在K8时代,AMD平台芯片组差的弊病彻底成为历史,NVIDIA为它制造了强大的nForce家族,这一度令英特尔感到胆寒。AMD和NVIDIA有着共同的敌人,英特尔则与ATI走得很近,两者联姻呼声甚高。然而世事无常,AMD终因为财力的因素而选择并购ATI,这是发生在2006年7月的事情。AMD为此耗费54亿美金,其中的25亿美金还是贷款。在此之后,AMD元气大伤,多次面临资金用尽的困窘,后来它将沉重的半导体制造业务剥离出售,变为无工厂的IC设计商,这在后来也被证明是明智之举。

2.K10:只是一次改进式的升级

K8时代的辉煌被英特尔Cor e微架构彻底终结,后者在指令效能方面占据压倒性的优势,整体性能也遥遥领先。迫使AMD推出新一代K10内核应对—时间已经是2007年10月份。

然而,K10并不是我们想象中的全新架构,只不过是K8的深度改良。K10的技术特性主要包括以下几点:原生四核设计、引入共享的三级缓存、CPU独立的供电设计和更灵活的节能机制、HyperTransport 3.0总线技术和支持DDR2内存、SSE执行单元宽度加倍到128bit和支持AMD-V虚拟化技术。这些改良措施的确显著提升了处理器的性能,但它仍然无法与英特尔当时的Core系列产品相对抗。

K10时代AMD逐渐弱化了Athlon的品牌,启用Phenom来代替它,接口方式改为Socket AM2+(后期为AM3)。尽管没有在性能上压倒对手,但并不妨碍AMD继续提升市场份额,因为Phenom平台具有一流的性价比,AMD同时还提供三核心的Phenom,这让它在面对双核Core系列处理器时颇具物理核心的优势。另外在移动领域,AMD的Turion 64 X2获得一定的应用,但受限于电池续航力的不足,AMD在笔记本电脑仅仅是小有斩获。

在这一阶段,NVIDIA无奈退出芯片组市场,因为AMD通过并购ATI获得的芯片组业务也成熟起来,并结合ATI的显卡技术,打造强有力的3A平台,这在营销上为AMD增色不少。然而,保证性价比优势也让AMD付出惨重代价,它在并购ATI之后就连续亏损两个财年,基本属于勉强撑起CPU、图形、半导体制造共进的大局。

转机出现在2008年10月,AMD成功地完成拆分,将旗下半导体工厂出售给阿联酋阿布扎比政府,并获得84亿美元的强势注入。作个简单的计算,AMD相当于用半导体工厂换取一个ATI,还剩余出30亿美金,无论从哪个角度看,这都是个非常划算的买卖。

2008年11月,AMD高调发布代号为“Shanghai”的新一代处理器家族,主要改进在于采用45纳米SOI工艺,同时三级缓存加大到6MB,但除此之外,K10.5的内在改进委实不多,它的优点在于弹性极好,衍生出双核、三核、四核以及六核处理器,给用户丰富的选择。

图9 K10架构的Phenom处理器,籍由架构的改进,指令性能获得显著的提升,但依然落后于对手。
图9 K10架构的Phenom处理器,籍由架构的改进,指令性能获得显著的提升,但依然落后于对手。

在K10.5的时代,AMD的芯片组和图形技术都蒸蒸日上,一改往日连续亏损的阴霾,虽然它的处理器不如对手,但图形性能却占据显著的优势,而在日常应用中,处理器性能过剩是不争的事实了,图形系统备受重视,这样整体来看,AMD平台在很多时候都更具吸引力。在2009年度,AMD获得2.93亿美元的净利润,2010年度则进一步提升至4.71亿美元,AMD终于摆脱了困境,而APU的诞生更是为它的未来发展注入澎湃动力。

融合才是未来:高瞻远瞩的APU

AMD收购ATI不久,就对外公布了Fusion混合处理器的开发计划,。在计划中,未来的CPU与GPU将被集成在一枚芯片上,两者共同分享高速缓存和内存系统,CPU和GPU之间高效地协作。

在2007年,提出这样的理念是相当前卫的——CPU与GPU处理的任务并不相同,二者的整合是否有意义?在接下来的几年,AMD不断地展示这种思路,但迟迟不见相关的产品出现,加上当时AMD境况糟糕,外界对于Fusion混合处理器也就不以为然。

2009年,英特尔抢先推出带有G P U 芯片的处理器,这便是Westmere,不过英特尔的简单做法更像是一种打击图形厂商的商业谋略,即便是现在的Sandy Bridge将CPU和GPU集成在一起,但性能与内部协助都不够出彩。

2011年3月,AMD终于发布代号为“Bobcat”(山猫)的第一款Fusion APU平台,CPU部分为精简的x86核心,GPU则基于AMD的Di rectX 11 Radeon平台,它所针对的是超轻薄笔记本电脑、上网本等市场,竞争对手是英特尔的Atom。6月,代号为Llano的主流级APU正式发布,这才是AMD真正的重头戏!Llano APU的处理器为K10.5架构, CPU均支持Turbo Core动态加速技术;集成的GPU则为Radeon HD 6500——它拥有多达400个SP单元,同HD 6570显卡相当接近。Llano APU采用32纳米SOI工艺制造,芯片集成的晶体管数量高达14亿5千万个,比英特尔Sandy Bridge四核心的9亿9500万颗晶体管多出近50%,这其中主要体现了GPU的差距。

图10 Liano APU核心结构示意,CPU与GPU高度耦合在一起,并在异构计算应用中发挥巨大威力。
图10 Liano APU核心结构示意,CPU与GPU高度耦合在一起,并在异构计算应用中发挥巨大威力。

针对不同的市场,Llano APU分别有A8(四核心)、A6(四核心)和A4(双核心)系列等多种配置,并且都有台式机版和移动版本。在实际测试中,台式机版本的Llano APU不负众望,它的图形性能非常抢眼,以压倒性的优势战胜英特尔Sandy Bridge核心的Core 2系列产品,弥补了CPU性能弱势的不足。

图11 AMD视异构计算为未来大的机遇,并为此调整了处理器的开发思想,步入真正意义上的融合阶段。
图11 AMD视异构计算为未来大的机遇,并为此调整了处理器的开发思想,步入真正意义上的融合阶段。

Llano APU一经发布,即获得市场的热烈追捧,相当出色的图形性能,一流的性价比,让消费者趋之若鹜。而Llano APU的移动版也受到笔记本电脑厂商的青睐,该芯片被大规模用于注重娱乐性的消费级笔记本电脑中。受此拉动,AMD在2011年二季度的市场份额强劲,其中台式机市场提升至28.9%,笔记本电脑市场则提升至15.2%,提升幅度为1.8%。但是在性能敏感的服务器市场,Opteron已经无昔日荣光,市场份额仅剩下5.5%。

对AMD来说,APU大的杀伤力并不是在于图形性能方面的优势,而是未来OpenCL异构计算的整合。所谓异构计算,即CPU和GPU联手共同处理计算任务,CPU更多完成整数运算,高密集度的浮点运算交给GPU负责—后者在密集计算中对于CPU有不对称的性能优势。一旦应用程序能够支持异构计算,APU平台将能够在整体性能上获得全面的领先。

对于异构计算的前瞻也直接影响到AMD新一代“Bulldozer(推土机)”微架构的开发中。“Bulldozer”值得期待的改进就是实现了四发射,这意味着AMD有机会在指令效能方面赶上对手,但“推土机”的浮点模块实际上被人为削减,AMD认为未来的浮点计算任务更多会由GPU来完成,AMD本身也有意识地推进异构应用程序的开发。由此节省出的资源则被用于整数计算模块以及GPU部分。这也意味着AMD开始以全局的视野来构建新一代处理器,而不再局限于x86或GPU自身的限制,这对于微处理器工业而言不吝是新时代的开启。

“芯”路未来

在三十余年的演进中,x86处理器迎来了发展史上真正意义的转折点:PC不再是唯一的计算终端,各种移动设备登台亮相,云计算让PC的重要性大大削弱,ARM架构开始对x86造成威胁,微软公司也放弃了多年以来的Wintel联盟,开始谋求建立自己的Win-ARM新帝国。然而,尽管面对这样的转折,但x86在未来的十年,恐怕都还是重要的架构。x86固然有着CISC指令系统低效的缺憾,可是x86的进化始终在进行:更高效的微架构、更先进的半导体工艺总是第一时间引入,英特尔与AMD的强大研发实力有目共睹,我们也期待x86在强敌出现时有惊人的表现。

见证“芯”路 30年CPU架构发展史

见证“芯”路 30年CPU架构发展史

本文刊登于《微型计算机》2011年11月上

分享到:

用户评论

用户名:

密码: