随着哥本哈根会议的召开,低碳技术和绿色IT已经开始成为IT界的热门话题。在今年“两会”期间,温家宝总理所作政府工作报告中,两次重点提到了“低碳经济”。对于IT领域来说,各大企业的数据中心无疑是碳排放的主力。那么,如何让它们效率更高,同时降低碳排放,成为未来企业关注的重点。笔者在某大型企业数据中心工作多年,对数据中心如何实现低碳化进行了深入了解,在这里与大家进行分享。
尽管和智能电网建设、石油化工、火力发电等行业相比,ICT(Information and Communications Technology,信息与通讯技术,下文将简称ICT) 的能耗和碳排放只能算是小字辈,但如果把这些数字呈现出来,也是十分惊人的。
我们可以从图1看到,电脑、外设与打印机其实是ICT行业碳排放的大来源,但这是基于其巨大的基数所产生的,对于具体某个企业来说,从这里进行有效控制相对比较困难。电信架构及设备的碳排放相对来说也不是普通企业所能影响的,只有数据中心是可控的部分。
图1
在ICT行业高度发达的美国,2006年全美国的服务器和数据中心的用电量是610亿度电,相当于美国总耗电量的2%,光这部分支出的电费就有45亿美元,基本上相当于美国全部住宅用电的5%,而这其中,政府的服务器和数据中心用电占到了大约十分之一。据估计,2012年美国服务器和数据中心的用电量将高达1000亿度。毫无疑问,这将产生更多的碳排放,而企业也有责任尽量控制这一数字的增长。
图2
2002年,全球数据中心的碳足迹,包括设备使用过程中的碳足迹和隐含碳,共计0.76亿吨CO2e(二氧化碳当量,一种温室气体的测量标准),预计到2020 年将增长到当时的3倍多,达到2.59亿吨CO2e。它是ICT碳足迹中增长快的因素,每年相对增长7%。如果这种需求继续保持线性增长,世界范围内服务器的数量将从现在的1800万台增至2020年的1.22亿台。从图2中我们不难发现,预计到2020年,服务器端增量大的将是入门级服务器。除了每年服务器数量增加9%,还会出现高端服务器(大型机)向入门级服务器转型的趋势。当然这里的数量估算并没有考虑虚拟化等新技术的加入。
目前,中国ICT产品年耗电量达500~600亿度,其中数据中心带来的能耗占40%。腾讯的马化腾曾经表示,2009年腾讯数据中心全年的耗电费用已经等于腾讯所有员工的工资,数据中心的电力消耗在过去10年增长了5倍。一台1U服务器使用成本达到了采购成本的2倍,而且还在继续增加;中国联通的数据中心运营成本约占总收入的60%,能源消耗成本占运营成本的70%。随着能源价格的飙升,对于大型企业来说,运营成本的同比增长已经带来了买得起设备付不起电费的现象。
一个标准的数据中心能耗占比主要由四方面组成(占比数据仅供参考),请参看图3。首先是IT设备系统。由服务器、存储和网络通信等设备所产生的功耗约占数据中心机房总功耗的44%左右。其中服务器所占的总功耗和存储设备、网络通信设备的功耗比例约为4∶1。
图3
其次是制冷系统,其所产生的功耗约占数据中心机房总功耗的38%。其中大约2/3的功耗来源于空调的制冷系统,1/3来源于空调送风和回风系统。第三是UPS供电电源系统,该系统的功耗约占机房总功耗的15%。第四是照明设备,它约占数据中心机房所需的功耗的3%左右。显然,IT设备和制冷系统是我们在实现数据中心低碳化进程时的重点控制对象。
图4 数据中心面临的挑战
传统数据中心在物理环境层面普遍存在局部过热所导致的宕机。因为风道设计不合理,制冷设备不能按实际设备的需要进行分配,导致总体能源浪费高且存在局部过热而宕机的现象在传统数据中心中普遍存在。
当前,国内大部分的数据中心都处在数据中心2.0阶段。在这个阶段中,虚拟化、整合都是建设绿色低碳数据中心的重点。
图5 数据中心的演进路径
事实上,一个高效率的绿色低碳数据中心改造需要分五步走。五步中的第一步就是要对症下药,首先要搞清楚能耗的实际情况和改进机会。
无论是新建数据中心还是对传统数据中心进行高能效环保改进,数据中心的总能源及功率密度等重要参数都要进行合理的规划。企业数据中心规划一般会依照《THE UPTIME INSTITUTE数据中心等级标准》和《TIA/EIA-942》标准中的电力等级对数据中心进行定义,然后结合其运行一段时间后的实测数据就可以提出针对性的改进意见。
当前测量数据中心的能耗指标有两种方法:Power Usage Effectiveness(电源使用效率,PUE)和Data Center Infrastructure Efficiency(数据中心基础架构效率,DCIE),这两种能源效率估算指标是在2007年2月,由The Green Grid(绿色网格)发布的一份白皮书中提出的。The Green Grid定义了这两种测量方法的具体计算方式如下:
1.PUE=数据中心总设备功耗/IT设备功耗。
PUE是一个比率,在国内大部分的数据中心都将此数据基准定为3,以一个600W的IT设备为例,如果PUE为3,输电网就需要为数据中心供电1800W电量,这说明为了确保IT设备安全运行,必须为配套的UPS供电系统、空调系统、输入/输出供配电系统及照明系统等组成的动力和环境保障基础设施预留IT设备功耗的2倍。PUE的值越接近1表明能效水平越好,国际上比较先进的数据中心的PUE值一般为1.5~2之间,并且在长期运行中能够稳定保持此水平。
2.DCiE=IT设备功耗/数据中心总设备功耗×100
DCiE是一个百分比值,它是PUE的倒数,数值越大越好。注:现在PUE的指标有另一种细化表达方式,公式为PUE=1/DCIE=电力负载因数+冷却负载因数+1(IT负载能耗),有兴趣的读者可自行查阅相关资料。
上面两个公式中的数据中心总设备功耗是指用电表测量出的数据中心单独的能耗。在测量IT设备自身的功耗之前,应该先完成所有电力转换设备、开关和空调安装,然后再进行测量。绿色网格建议的佳测量点是PDU(机房配电器)的输出口,从这里测量得出的就是数据中心供给计算机设备机架的总电量。
据相关部门统计,目前国内机房中140平方米以下的占50%(其实可能比这个数字还要多,因为有大量的小机房是不会被统计的),400平方米以下的机房占75%左右。这些中小型机房因为缺少合理化的能源效率设计,所以绝大部分PUE值都很高,浪费电力的现象比较严重。Gartner的分析报告显示:2008年,正在运营的数据中心中有50%面临因高密度的设备而产生的电力及空调不足的困境;2009年末,全球70%的数据中心基础设施中的能源消耗成为继企业人力成本后的第二大运营成本。从全国范围来考虑,PUE值如果能够下降,带来的可能是几十亿甚至更多的成本节约。
对于大型数据中心来说,现在国际上有一种集装箱式数据中心正在推广,它的主要特点是高密度、低PUE、快速部署。Microsoft在芝加哥的集装箱式数据中心的PUE约为1.2,该数据中心有三分之二采用集装箱式的服务器机房。这些集装箱可容纳1800个到2500个服务器。由于采用集装箱后只需对集装箱进行冷却,而不用冷却传统的整个数据中心机房,因此可以大大节约冷却所需的电能。Google也是采用的集装箱式数据中心,它甚至将机房建在高纬度地区,利用高纬度地区天然偏低的温度来减少能耗。
在进行了估算和有效规划以后,企业打造绿色低碳数据中心的第二步是进行物理设备的升级改造。一般来说,数据中心的PUE值较高,主要有以下几点原因:
1.现有IT设备能效比低;
2.冷却方案设计有待改进;
3.虚拟化方案只是针对服务器单台进行(应用整合力度不够);
4.没有进行完善的电源统一管理等。
这里我们先解决IT设备能效比低的问题。在服务器CPU的评测对比中,我们常常会看到每瓦特性能的数据描述,这和IT设备的能效比其实有异曲同工之意。解决IT设备能效比低下的佳途径往往是升级服务器等相关硬件。而新的服务器或存储设备如果能在没有增加机架空间的前提下,数据处理能力或磁盘I/O吞吐性能都有明显增强,而且能将旧有的多台服务器的应用进行整合,那么一方面可以提升IT设备本身的能效比,另一方面减少所占用的数据中心面积也可以大幅度地降低数据中心机房所需配套的UPS和空调系统的容量和功耗,降低数据中心的碳排放量,一举两得。
以笔者所在单位为例,数据中心所采用的新旧服务器为两款惠普的机型,同样是占用2U的机架空间。其中HP ProLiant DL380 G5是相对较老的型号(采用3GHz的Intel Xeon 5160处理器,4线程),而DL385 G6则是新型号(采用2.6GHz的AMD Opteron 2435处理器,12线程)。图6和图7是这两款服务器的实际功耗性能比图。ProLiant DL385 G6的表现如图6,ProLiant DL380 G5的表现如图7。
图6 图7
很明显,DL385 G6在功耗性能比上大大领先于DL380 G5,考虑到现在多数数据中心服务器的负荷不大,用一台DL385 G6取代两台DL380 G5是不成问题的。另外采用英特尔新基于32纳米制程至强5600系列处理器的服务器产品也是目前很不错的选择。一方面其更先进的制程可以使处理器功耗得到更好的控制,另一方面,该处理器可以智能适应工作负荷,进行频率和内核调整,在非高负荷状态更好地节约电能。而其高6核12线程的硬件规格,也使其性能与几年前的单核服务器相比可提高15倍。
这里需要提醒的是,企业应该尽可能多选用具有较宽工作温度和湿度范围的IT设备。相关经验数据表明,在其它运行条件保持不变的情况下,如果将空调机的运行温度(例:回风口的温度)提高1℃,就能节能3%左右。除了服务器设备的更新,将网络设备进一步替换为模块化产品也是常见的整合手段之一。假设IT设备的负载不变,新设备以整合的形式加入势必会带来空间和成本上的节约,为进一步降低数据中心的碳排放量做出贡献。也许你会问,如果不更换服务器,不升级硬件,应该如何尽可能地实现绿色低碳化呢?那就需要虚拟化和电源管理软件来解决了。
IT设备的能效比。IT设备能效比=(IT设备的数据处理流量/秒或数据吞吐量/秒)/IT设备的功耗。IT设备的能效比越高,则意味着IT设备每消耗1W的电能,所能处理、存储和交换的数据量越大。因此当我们在选用服务器时,不仅需要了解各种产品在满负荷运行时的功耗大小和效率的高低。还需了解它们在轻负荷运行时的实际功耗大小和效率的高低,或者叫实际功耗性能比。SPEC的功耗基准测试是这个领域中的代表软件,尽管测试环境较为复杂(并非在单台服务器上安装软件展开测试即可完成),但一般情况下,我们只需要借用官方给出的标准数据来进行对比即可。
随着硬件技术的发展,低碳数据中心和传统数据中心在前期基础设施建设投资上的差别已经不大,但数据中心的低碳技术中还包含了技术和软件部分,合理优化和设置也能在相当程度上降低成本、节能环保并进一步减少碳排放。其中虚拟化无疑是典型代表,在我们今年前几期的文章中曾经对虚拟化技术进行过重点描述,相信读者朋友应该会有一定了解。现在以非密集运算为主的服务器应用占据了企业数据中心应用的绝大多数,而这部分应用对服务器CPU的资源占用率一般都在15%以下,大量CPU和内存资源实际上是闲置的,而虚拟化技术几大特性之一—合并整合性在大大提高服务器使用效率的同时,也可以大幅减少服务器的数量。这是实现绿色数据中心的重要一步。
图8
据VMWare在一个数据中心改造中的数据估算,每从物理环境向虚拟环境迁移一个工作负载,客户就可以节约大致290美元的供电成本,每年可节约大致360美元的制冷成本。更重要的是,这些节省的费用会逐年增长。除了对公司的收支影响外,虚拟化还会对环境带来重大益处。在笔者接触和了解的一些案例中,一些提供了高度整合虚拟化解决方案的数据中心,服务器数量甚至不到原来的十分之一,这可不仅是节约了硬件开支。
根据新研究发现,在美国乃至全世界,服务器用电量总和在2000~2005年间增长了一倍。这一增长几乎都是由廉价的PC服务器增加引起的。通过虚拟化可以减少数据中心内的服务器总数,从而显著降低供电和制冷成本。同时也减缓了现有数据中心的供电和制冷要求增长,从而避免随之产生的高额数据中心升级和不动产扩容费用。通过在高配置的服务器上运行多个工作负载,数据中心就可以将服务器硬件的CPU使用率从10~15%增加到80%或更高。
早在几年前的Intel ASDC会议上放出过一份资料(图9),上面显示IDC(Internet Data Center互联网数据中心)的虚拟化服务器在09年后将大幅提升(事实也的确如此)。
图9
因为x86硬件辅助虚拟化的广泛应用,以x86为主流平台的服务器领域解决了以前的很多固有顽疾,加上数据中心设备厂家的虚拟化接口支持和VMware、Xen、微软、Sun和IBM等虚拟化巨头的软件跟进,虚拟化摆脱了以前仅以服务器虚拟化为主的虚拟化1.0的时代,开始全面迈进虚拟化2.0阶段。虚拟化2.0的关注点将从虚拟化1.0阶段的资源整合、集中管理、降低服务器和能耗成本的集成模式,转移到实现业务连续性、资源提供的服务模式等方面。虚拟化2.0包括虚拟化运维管理、虚拟化业务连续性、虚拟化资源提供三大方面,并且可以细分为控制、监控、高可用性、灾难恢复、弹性架构、资源管理等六项。而这几项正是此前阻碍虚拟化在数据中心中应用的原因。相信随着虚拟化2.0相关技术的越来越成熟,虚拟化将会成为未来绿色数据中心的主流技术。
某美国企业案例。在对数据中心实施了虚拟化之后,这家企业的数据中心变化如下:
服务器利用率增加到了将近80%;每个月在供电和制冷方面节约了1.9万美元;服务器整合率达到了12:1;部署第二个虚拟机后即实现了投资收益——目前已部署了约1600个虚拟机;数据中心占用的空间是原来的12/1;60%的x86环境实现虚拟化;过去三年中,OS实例增长了一倍,而员工数目保持不变;能在数小时而非数周内部署新服务器;撤除的虚拟机多于当前使用的虚拟机,从而控制了虚拟服务器数量的剧增;避免了构建多个数据中心;节省了下列资金支出:用于空间、供电和制冷基础架构的187万美元;用于布线基础架构的9万美元;用于网络基础架构的30.9万美元。
图10
另一个采用VMware虚拟化方案的案例:
看上去是不是十分美妙?当然,这两个案例是在网络上转载广泛的经典,在大部分实施虚拟化解决方案的数据中心也许并不能取得如此明显的效果,但随着如思科、F5等网络层和应用层面的硬件设备厂家开始对虚拟化提供支持,虚拟化无疑将会是未来相当长时间内数据中心实现绿色低碳化的重点突破口。
使用创新的冷却解决方案也是数据中心绿色低碳化改造的重点之一。根据Uptime Institute针对19家数据中心调查的白皮书指出:一般室内仅有40%的冷空气能循环进入服务器进而发挥冷却效果,可见有大量的能源被浪费在了IT设备区域的通道里。在提高数据中心冷却效率的策略中,历史经验证明有效果的方法主要有以下几点:
1.恰当地密封数据中心的地板和天花板。无论透出的冷气,或是从外界引入的热气、湿气都会降低冷却效率,因此好的办法是将数据中心适当地密封起来。首先是利用气封将数据中心和外界隔离开来,这在保持数据中心湿度方面有非常重要的作用。
图11
一个数据中心如果湿度过高,会出现磁带介质出错、吸湿除尘失效和过度磨损等问题,而湿度过低则静电放电现象出现的几率会大大增加,数据中心一般控制湿度在40~50%之间。密封主要利用乙烯塑料地板、墙纸和塑料胶片等材料进行,比较常见的是对地板空洞(大多数活地板环境都有电缆孔、导管孔和其他使冷空气泄漏并且与热气混合的孔)的密封处理。
2.优化气流。大多数企业的数据中心管理人员虽然熟悉CRAC(机房空调)的冷却方法,即传统风冷的概念,但常常会忽略一些漏风产生的气流会大幅度降低冷却效果的问题。常见的是机架服务器的空隙。在笔者亲身工作和了解的数据中心中,这个遗漏带来的冷却效果降低的确是存在的。所以我们要采用的措施是在机架中安装封闭面板,从而阻止热气从同机架的一个设备进入另一设备的冷气通风口,扰乱机架气流。除此以外,常见的其他机架中可能对气流产生影响的因素见图12:
图12
3.按冷通道和热通道布局机柜。如今生产的大部分IT设备都是前端吸入冷气,后端排出热气,这样设备机架就可以创建出大家常常听说的冷通道和热通道。
在设计时,就让机架设备面对面,均从前端冷通道吸入冷气然后将热气排入热通道,上面提前的机架封闭面板和在冷通道尽头进行隔板封闭都是减少冷热空气混合的措施。一些数据中心采用在机架后端用补充风扇进行热气抽取的作法。但风扇本身的电力消耗及需要从数据中心外排的热量都会增加,利弊就需要进行衡量了。而在本身就已经存在风扇的地方,改用变速风扇倒是一个不错的主意。有研究机构进行过测算,风扇转速下降所带来的电力节约比例还是相当可观的(当然,这要在大量采用变速风扇的数据中心才能看出效果)。除此以外,机房空调的安放位置也有讲究,一般应该安放在和热通道垂直的位置,缩短气流通路并有效防止热气返回空调时被吸入冷通道。
图13
我们还要考虑活动地板下方的线缆区散热问题。现在大部分数据中心采用的是下送风技术,而较老的数据中心的活动地板下面的线缆区空间非常有限,同时还很混乱,限制了空气的流动。因此,为了保证地板下的压力通风系统正常工作,应该对地板下面的空间进行清理,以便改善空气流动。其实为了解决这一问题,现在选择架空电缆的方式越来越普遍,因为它解决了空气堵塞的问题。
4.安装专门的节能装置。它的整体理念是在天气冷的时间段或季节(夜里和冬天),通过节能装置使得数据中心能充分利用外界的冷空气,这也是近常常被关注的免费数据中心冷却方式。国外的一家实验室对安装了节能装置的建筑和不安装此装置的建筑进行了对比研究,发现安装节能装置的建筑,其耗电量密度EUI(Energy Use Intensity)要低十几个百分点,效果还是很明显的。
图14
此类节能装置主要有气体型和液体型两种,气体型主要由传感器、风管道和气流调节器组成,允许外界空气适量进入以满足机房设备的冷却需求,但气体型节能装置易受到湿度的影响,所以适用地区不广。而液体型则是在室外利用冷却塔和干冷却器等设备配合机房内空调共同完成,它不会受到外湿度水平的影响,因此越来越多的数据中心在改造时都会考虑这类节能装置。
5.提高冷却系统效率。这一项需要专业的人员来提供支持了。笔者在此只介绍一种较为常见且在数据中心中实施可能性较大的方法。这种方法主要是目的是提高空调机组负载不足时的运行效率,它的工作原理就是关掉系统内冷却剂到液压缸的气流,使得冷却系统工作在低容量状态。现在一些新式的压缩机技术已经能将能耗控制在远低于标准固定容量压缩机的水平上。除此以外,对同一个数据中心有多个空调冷却机组的情况,还要考虑在所有空调机组上都安装控制系统,以保证不会出现位置相隔较远的不同机组,环境状态检测不同带来的控制不力现象。对于高热高密机柜,可采用机柜级制冷,进一步提升冷却效率。
图15
而在大型数据中心中,根据布局和负载情况一般会采用房间级,行级和机柜级多种制冷方式结合混用的模式。
图16
这三种方式各自特点不同:模块化机柜级制冷架构为灵活、布局迅速,并可解决极高的负载密度,但是投资成本大。房间级制冷架构灵活性差、需要在规划初期进行布局,且在高密度机柜条件下运行效果差,但在较低密度应用具有投资成本低和简便等优势。模块化行级制冷架构在在灵活性、布局速度和解决高密度方面的许多优势,但投资成本却与房间级制冷架构类似。
6.安装辅助冷却系统。这个解决方案是为了解决现有的数据中心中存在因高热密度应用升级而带来的架空地板系统冷却容量不足的问题。辅助冷却系统主要有冷却剂和冷却模块两种方案,其中冷却剂方案不同于水冷技术,冷却剂在被抽取时是液体状态,但接触空气后会转变成气体。一般在大型数据中心,热密度大于一定数值时才会启用辅助冷却系统。
图17
对于单机柜5kW以上的机柜,还有一种常见的处理方式是采用ADU( Air Distribution Unit,空气配送单元),ADU又分成地板式和机柜式两种,它可提供更大的风量保证冷却效果。
图18 风冷系统示意图
除了以上几点常见的冷却节能方式外,类似嵌入式冷却(贴近热源)技术和芯片级冷却等新技术也在不断涌现。
图19 水冷系统示意图
在国内的大型数据中心,一般建议采用的是风冷和水冷结合的方式。
除了常规的环境指标监控以外,这里还要着重谈一下电源管理软件和传感器安装。我们知道,在数据中心建设初期,无论是服务器、存储还是网络设备,常常都不会进行满配,而电源为了以后扩充的需要都会采用较高的规格,这就带来了电源端的电能浪费问题。一方面,我们需要选择转换效率高的80Plus电源,另一方面数据中心里的大部分服务器也都并不总是使用大功率,所以适当的电源管理对于24小时不关机的数据中心IT设备节能来说是非常重要的。比如Avocent公司的电源管理软件Dsview 3 Power Manager和IBM的Power Executive软件,前者可以帮助用户实时监测数据中心IT设备的能耗和能源使用情况,后者则可帮助客户通过智能技术来有效管理数据中心电力消耗,从而可以确定实际能耗和系统温度。在虚拟化领域,Vmware目前也提供了VMware VMotion、VMware Distributed Resource Scheduler(DRS)和Distributed Power Manager(DPM)这样的革新技术,改进了大批服务器的电源管理。针对可能出现温度问题的地方,可以采用放置少量的单个传感器来手工收集温度数据并进一步的分析。这样可以反映出数据中心温度问题的动态情况,为改善数据中心的冷却提供一种分析方法。
其实除了上述的主要方面,还有一些其它的辅助项可供考虑。首先是数据中心的选址。特别是对于全新建立的数据中心来说,无论是自建数据中心还是进行托管,数据中心地点的选择是很关键的。可以把数据中心建立在更高纬度、或年平均气温较低的城市,这更有利于利用免费冷却技术。其次是提高数据中心的温度。目前许多数据中心的运行温度低于标准。而在保证运行稳定的情况下,数据中心的运行温度每向上提升一度,都可以带来可观的能源节省,这方面Google的机房已经是一个例子。然后是照明线路的节能控制,在常规无人值守的计算机机房中,往往提供7×24小时×365天提供不间断的高照度照明。机房一级照明为主要通道及基础工作照明,其中包含消防紧急照明,其照度不超过150Lux。二级照明为机房操作辅助照明,一般只有在机房内有工作人员需要进行设备操作及维护管理时,才开启所用区域的二级照明。而先进绿色数据中心的照明自动控制管理系统对机房内的二级照明通常也会实行节能控制。在节约照明用电的同时,也可减少机房内照明设备产生的发热量,减轻空调系统及动力电的负担。另外,在照明灯具的选型时要选择节能型灯具。
在国际上,大规模、高热密度的数据中心除了采用上述智能型监控管理手段外,还逐步尝试可再生能源的利用,比如水力发电、风电、太阳能发电,还有其他各种生物质能的应用。另外数据中心的热回收,也是可以尝试的一种有效节能手段。到这里,我们的数据中心绿色低碳话题暂时告一段落。在成本效益和低碳经济的双重推动下,绿色低碳理念不仅体现在数据中心方面,也进一步地渗透到了我们生活中的方方面面。
MC特约评论员 黄继承(金融企业信息技术部工程师)
国内的环保节能数据中心大部分还停留在纸面规划上。在实际运营中,多数都已经背离了当初的设计规划。造成目前情况的原因有很多,企业自身对环保的重视程度是主要原因,多数企业还没有在这方面对IT成本进行严格管控,数据中心通常主要被考虑用来满足的是业务连续性和稳定性,其运营拨款通常比较充裕,所以向绿色低碳化转变还没有提上议事日程。尽管如此,我们相信随着未来成功案例的增多、能源的紧张以及成本的上升,会有越来越多的管理者开始关注数据中心向绿色低碳化的升级之路。