MCPLive > 杂志文章 > Romley@Xeon E5 英特尔“云端”利器

Romley@Xeon E5 英特尔“云端”利器

2012-04-14微型计算机《微型计算机》2012年4月上

在接下来的万兆网络时代,它将充当普及先锋的角色;

在接下来的云计算时代,它将承担90%的服务器计算应用;

它能为你带来数倍于当前同规格服务器的计算性能,它就是新一代Romley平台,它就是英特尔至强E5系列处理器。

2012年3月7日,英特尔在北京正式发布了以新一代至强E5处理器为核心的Romley平台。作为一个为云计算而生的服务器平台,Romley带来了包括处理器、芯片组、主板设计和外围扩展在内的全方位解决方案。在英特尔的规划中,新的至强E5处理器已不再是单单满足计算性能提升而诞生的换代产品。相比上代主流至强产品X5500系列,E5更像是个云计算时代的多面手。用戴伟德(Boyd Davis)的话来说,E5带给你的是多元化的价值!

戴伟德(Boyd Davis):多元价值助至强E5挑战多元云环境

戴伟德:英特尔架构事业部副总裁及数据中心基础架构事业部总经理
戴伟德:英特尔架构事业部副总裁及数据中心基础架构事业部总经理。

有人曾问我关于新至强E5产品的“成本回收周期”问题,这个词在我们2008~2009年发布至强X5500系列时确实提到过。但和那时不同,现在的我们更看重新至强E5的综合能力。在发布会上,我们已经传达了一个关键信息:E5面临的不是简单的计算性能挑战。当前的应用环境有着许多其他方面的制约,比如I/O的瓶颈。想解决各种挑战的话,内存、I/O、安全、功耗都需要创新。而在此之前,我们让服务器退休都主要是从计算性能的角度考虑。现在会有更多的考虑,比如能不能使用更优秀的安全技术,能不能进行能耗管理,能不能进行优化管理。这已经不只是成本回收这个简单的话题,我们的价值体系已经多元化。此外,在我们看来,为了保证IT服务的效率,服务器的四年退休周期已经到来。

其实就全球的数据中心市场来说,即使没有至强E5,其相关技术还是会发展,毕竟全球对于计算的需求量非常大。尤其是增长迅速的中国市场,对服务器的需求量要高于其他市场3倍。而新的至强E5能够满足更多应用需求,它解决了云计算时代除了计算性能外的更多瓶颈,例如I/O和安全。这无疑能促进行业的蓬勃发展,加快行业更新速度。这一“供”一“需”,让我们对2012年非常乐观。从整个市场来看,也有至少三个原因,让我们相信乐观的判断:

一、对于传统如RISC、存储和网络应用的专有架构正在向IA英特尔的架构进行转变,这给我们带来了更多参与市场的机会。

二、现在互联网服务在大幅度增长,用户和互联网互动的方式越来越多,服务器需求剧增。

三、市场对高性能计算的需求越来越多。如很多的研发工作和科学工作,以往都通过真正的实体进行试验和建模,而现在都通过计算的方式来模拟和分析。

至强E5 2600系列产品技术解析

说了这么多对Romley平台和新至强E5处理器的肯定和期望,它究竟有哪些新技术来承载这份期望呢?让我们先从处理器的特性说起。

根据处理器核心数量、缓存大小等规格区别,E5 2600系列大致划分为三个档次——Advanced(高级)、Standard(标准)和Basic(基本)。基本版提供10MB三级缓存和6.4GT/s的QPI(快速互联通道),支持DDR3 1066;标准版提供15MB三级缓存和8.0GT/s的QPI,内存频率提高到DDR3 1333,增加了Turbo Boost 2.0第二代睿频加速技术(多可跳5级,500MHz)和超线程技术;高级版三级缓存提升到20MB,支持的内存频率进一步提高到DDR3 1600,Turbo Boost多可跳9级,单核心大加速900MHz。

此次发布的E5 2600系列处理器一共有17款,均为双路设计。相比上代至强X5000系列产品的Nehalem微架构,新的E5系列采用的内核是全新设计过的Sandy Bridge。该架构的高效能表现已经在至强E3产品上有所展现,而E5则是E3的扩展、增强版。

首先,相比至强X5000系列的交叉总线设计,至强E5引入了环形总线(Ring Bus)结构。E5产品的各个CPU核心、LLC缓存(L3缓存)及System Agent等部分都将由环形总线互连。在处理器不断通过扩展核心数量来获得性能提升的时代,多内核间相互交换数据若出现较大延迟反而会影响整体运算效率。相比传统的交叉总线设计,环形总线不仅能够让各个核心完美共享L3缓存,还能大幅减低设计复杂度,降低访问延迟,从而进一步提升整体运算速度。

其次,它有一个名为Data Direct I/O的特色技术(以下简称为DDIO)。这项技术可以帮助处理器更快速、更智能地选择短路线来读写数据,从而提升I/O性能。通过右下图中进出两个方向的对比,我们能发现E5系统的数据读写已经不需要像以前那样经过内存才能完成。从LLC可以直接传输到核心中,这样就节省了繁琐的操作步骤,提供了更短的响应时间。之前需要4到5步的操作如今可以简化到3步完成,流水线少了一环,传输自然会更加快捷。

至强E5采用的双环形内部总线结构。该结构能让缓存的延迟明显降低,大约由原来的36~40个时钟周期减少到26~31个时钟周期。
至强E5采用的双环形内部总线结构。该结构能让缓存的延迟明显降低,大约由原来的36~40个时钟周期减少到26~31个时钟周期。

解决了总线和缓存的效率问题,就能进一步支持指令效率的提高。随之而来的AVX即Advanced Vector Extensions高级矢量扩展入驻E5就显得顺理成章。AVX是继SSE4指令集后的新指令集,融合了乘法的双指令支持。从而可以更加容易地实现512位和1024位的扩展。E5允许256位AVX指令借用128位的整数SIMD数据路径,换句话说就是允许E5产品同时处理8个单精度浮点数和4个双精度浮点数,这让该系列产品在小的核心面积上实现了双倍于老产品的浮点吞吐量。

Data Direct I/O设计示意图。免去了数据在内存中转的步骤,让I/O效率更高。
Data Direct I/O设计示意图。免去了数据在内存中转的步骤,让I/O效率更高。

理论上,以上设计能让E5处理器的内核效率提高到一个新的高度。但这还需要外部I/O效率的提升来配合,否则系统依旧会出现瓶颈。特别是对存储和I/O需求日益膨胀的云时代,外围数据吞吐量的需求更是日益增高。面对这样的情况,英特尔对互联总线规格和内存规格做出了大幅改进。

灵活的256bit指令集设计,让浮点处理效率更高。
灵活的256bit指令集设计,让浮点处理效率更高。

和上代至强X5000系列一样,至强E5产品也整合了DDR3内存控制器。不同的是,控制器规格由上代的3通道扩展到了4通道,频率也由DDR3 1066提升到了高DDR3 1600。由此E5的理论内存带宽达到了X5000系列的2倍。

单路至强E5就能提供40条PCI-E 3.0总线。这40个PCI-E 3.0通道可以4条、8条或16条为单位自由组合成不同的端口。
单路至强E5就能提供40条PCI-E 3.0总线。这40个PCI-E 3.0通道可以4条、8条或16条为单位自由组合成不同的端口。

此外,除了内存控制器,E5还将PCI-E控制器等更多原IOH的功能整合进了处理器。PCI-E规范也从Intel 5520 IOH的2.0版本提升到了3.0版本。每处理器支持高达40条直连的PCI-E 3.0通道,双路服务器多提供80条PCI-E 3.0通道,比两个Intel 5520 IOH提供的72条PCI-E 2.0通道数量还多。而且,相比PCI-E 2.0的5GT/s规格,PCI-E 3.0的传输速率提升到8GT/s。加之PCI-E 3.0规范使用了更为高效的编码方式,实际带宽接近倍增的效果。所以至强E5系统的实际总线传输能力相比至强X5000系统也几乎翻番。并且,因为PCI-E 3.0直连在处理器上,省去了QPI和IOH的中间传输环节,I/O通路缩短的效果是响应时间的下降,有利于改善整体传输的延迟。

至强E5系统的整体互联示意。
至强E5系统的整体互联示意。

既然I/O模块被整合进了处理器,那么处理器和芯片之间的连接就不再需要高速的QPI直连。所以新的E5系统改变了QPI总线的设计。处理器之间的QPI总线从原来的1条增加到2条,速率由之前的高6.4GT/s提升到了现在的8GT/s。由此,增强了多路服务器中各处理器间的通信能力。处理器与芯片组之间则不再使用QPI连接,而用相对低速的DMI总线替代。

说到芯片组,和E5处理器一同发布的C600芯片组也是Romley平台的重要组成部分,但它只是对至强E5 I/O能力的补充。主要是对USB、SAS和PCI-E 2.0等不需要太高传输速率的设备提供了相应的支持。有趣的是,我们不曾想到英特尔许诺的8端口SAS支持,提供的竟是3Gb/s的规范。其实早在去年宣布Romley平台将要整合8端口SAS支持能力的时候,6Gb/s就已经是SAS的主流规范了。可能是英特尔在开发SAS 6Gb/s控制器的过程中遇到了一些困难。

Intel C600芯片设备支持能力一览
Intel C600芯片设备支持能力一览。

为了不影响至强E5平台上市的整体步伐,所以暂时选择了更为稳妥的3Gb/sSAS方案。当然仔细观看C600芯片的规格你会发现,8端口6Gb/s的SAS对C600来说也确实有些强人所难。C600与至强E5处理器间的连接已经不是高速的QPI总线了,而是DMI 2.0。其带宽相当于4倍速的PCI-E 2.0,单向为20Gb/s。而8端口的3Gb/s SAS的高带宽需求已达到24Gb/s,DMI 2.0已经无力应付。若将单个端口速度提升到6Gb/s SAS,即使把SAS端口数从8减至4个,DMI 2.0总线也无力承担高速传输的重任。

分享到:

用户评论

共有评论(2)

用户名:

密码: