您的位置: 网界网 > 数据中心 > 正文

谷歌数据中心神经网络运营优化介绍

2015年02月12日 17:18:17 | 作者:腾讯网络平台部数据中心规划组 李典林 | 来源:cnw.com.cn

摘要:在新加坡举办的Datacenter Dynamics 2014会议上,谷歌数据中心副总裁Joe Kava和天才小子Jim Gao介绍了自己的公司是如何利用机器学习和人工智能来进一步改进数据中心能效到1.1以下的。

标签
谷歌
绿色节能
神经网络
数据中心

图8(c)和8(d)示出的PUE和运行的冷却塔数目之间的关系,以及PUE和冷却塔出水平均温度(LWT)设定值之间的关系。从风扇的特性上判断,如果开启更多冷却塔,我们预计PUE将得到下降,因为风扇功耗和转速之间是三次方的关系。分散相同的冷却负荷到更多的冷却塔,将让每个冷却塔运转在较低的平均风扇转速,从而总功耗降低。同样地,在图8(d)中,如果冷却塔出水平均温度(LWT)设定值增加,也将降低整个冷站的能耗。这同样是因为风扇功耗和转速是成立方倍关系。图8(c)还表明了一个采用共享冷却水管道,将散热负荷分散到多个冷却塔的设计,要比每个冷却塔采用独立冷却水供回水管路的设计更为节能。

图8(e)冷冻泵数量和PUE之间的关系 图8(f)冷冻泵转速和PUE之间的关系

图8(e)和图8(f)展示了数据中心PUE和运行冷冻水泵(PWP)数量之间的关系,以及PUE和冷冻水泵转速之间的关系。对于一个给定的冷冻泵转速,增加运行冷冻泵的数量将增加总的冷却能耗,并且因此增大了PUE值。同样,提高冷冻泵平均转速,同时保持原有的冷冻泵数量,将会导致冷冻泵能耗成立方倍增加,最终提高了冷冻泵的能源开销。

图8(g)PUE和运行干冷器数量关系 图8(h)PUE和室外湿球温度关系

图8(g)展示了PUE和运行干冷器数量之间的关系。干冷器只是在冬季的几个月内运行,特别是在周围的环境温度可能造成冷却塔结冰的情况下使用。由于干冷器利用特殊闭式冷媒,冷冻水与室外冷空气之间通过冷媒进行热交换,但干冷器通常比传统的横流式冷却塔或逆流式冷却塔表现出更低的效率。这个特性可以反映在PUE图,更多的干冷器运行将带来冷却功耗的线性上升。

图8(h)则展示了提高湿球温度带来的PUE变化效果。该曲线的形状和谷歌的历史PUE数值匹配良好,较高的湿球温度限制了冷却塔的应用范围,需要更高的风扇转速和更多的机械制冷。而在左侧PUE略有增加,是因为在低湿球温度下开启了更多干冷器的缘故。

图9 室外空气焓值和PUE之间的关系

图9展示了PUE和外部空气的焓值关系。当空气焓值增大,冷却塔数量、工作冷机数量、及这些额外大功率设备投入带来的总功耗上升,使得数据中心能耗非线性增大。需要注意的是空气焓值比单独的湿球温度影响更大,因为前者能更为全面得衡量户外天气条件,包括环境空气的水分含量和比热等。

综上,敏感性分析显示,室外空气焓值对数据中心PUE值的影响最大,紧随其后的是IT负载的影响,以及冷却塔出水温度LWT设定值(+本站微信networkworldweixin),运行干冷器的数量也会显著影响数据中心的PUE值。

在实际应用中机器学习方法可以告诉我们两个结论:1、当前数据中心可到达的最低PUE值,2、以及如何调整优化参数来实现这一目标。在实际运行优化中,谷歌通过神经网络模型及过往数据的模拟分析,有一些如下的典型实际应用案例。

案例1、模拟过程供水温度的升高

在这项研究中,谷歌通过提高冷却塔出水温度LWT和冷却水补水泵的温度设定值,将送到服务器地板下冷冻水供水(PWS)的温度提升了3华氏度。图7展示出在同样的服务器负载和室外湿球温度条件下,连续三周下较高的冷冻水供水温度PWS(显示为红色)的PUE分布,和运行在较低冷冻水供水温度(PWS)下的PUE出现频次比较(显示为蓝色)。两个分布曲线都有清晰的双峰,左侧峰值对应于仅仅由冷却塔的节能工作模式,右侧峰值对应于冷却塔和冷机同时运行在夏季条件下。根据模拟预测,分布曲线的左侧有约0.5%的平均PUE值差异(不完全重叠在一起)。而在右侧的PUE值差异更大,因为在高水温下除非冷却塔已经达到了最大容量,否则冷机不会开机工作。

图10 对应于更高的PWS温度(红色)与低级PWS温度(蓝色)的PUE分布

案例2:输入错误的仪表倍率修正

在2011年Q2,谷歌宣布将天然气发电量作为PUE计算的一部分。这需要在每个谷歌的数据中心安装自动化天然气计量表。然而,不同燃气表类型带来混乱错误的测量倍率。例如,一些米表每1刻度对应1000立方英尺的天然气,而另外一些米表则显示是1:1或1:100的比例。数据中心运营团队在采用燃气供电时候发现PUE异常,实际计算得到的PUE值会高出机器学习的预测值达0.02到0.1。后来谷歌在原因查找时候发现测量值是仪表倍率错误导致,故得到修正。

图11 机器学习发现错误的天然气倍率读数

案例3:数据中心冷站配置优化

这个案例中,数据中心需对电力基础设施计划性升级,为安全起见需迁移走40%的IT负荷。为了能仍保持较高的数据中心运行效率,这需要改变冷机系统的设置参数以匹配减少的IT负载。通过神经网络算法模拟PUE优化方向和运营人员专业知识,运营团队选择了一组新的运行参数,相比之前的配置参数,该数据中心的PUE值从1.22降低到了1.18,降幅达0.04,如图12所示。

图12 采用神经网络模拟调整冷站参数实现PUE降低

当然,机器学习的应用效果受到输入数据的质量和数量的影响。因此,数据中心拥有大量的运行数据来实现精确的数学模型就显得非常关键。若只有较少的数据该仿真结果的精度会降低。

图13(a) 采用神经网络前后PUE值的对比 图13(b)出现概率的分布

图13(b)展示了某个数据中心过去2年在不同室外湿球温度下的2000个PUE数据,用蓝色标识,绿色则是采用机器学习之后的PUE数值,可以发现两个特点:1、PUE值随着室外湿球温度升高增加很快,因为冷却塔的散热效率随着室外湿球温度的升高降低很快;2、采用机器学习优化后在同一湿球温度下的PUE值(如绿色点所示),比优化前要低很多,而且基本集中在范围很窄的两个较小区域内,分别对应冷机开启和冷机不用开启的两种情况。图13(a)到图13(c)分别对应几个数据中心优化前后的PUE比较,最大实现了约25%的节能,最小的也降低了10%,总体实现了平均15%的节能。

图14 B/C数据中心采用神经网络运营优化前后PUE值的对比

五、结论

数据中心中的规模在加速增长,使得能源效率优化显得越来越重要,但因其复杂性却又难以简单优化。利用本文所阐述的神经网络机器学习方法,谷歌可以预测数据中心的PUE精度达到0.4%到 0.5%之间,同时还可能将PUE降低到1.1以下。谷歌数据中心的实际优化测试结果表明了机器学习方法可以利用现有的传感器数据来模拟数据中心能源效率优化,并能实现10%以上到15%的节能,而且机器学习会告诉你如何优化数据中心的能效,包括模拟数据中心的参数配置评估,能效评估,并确定优化方案等,是一种非常有效的运营利器。

资料来源:

1、Machine Learning Applications for Data Center Optimization,By Jim Gao

2、《谷歌将神经网络运用到数据中心,机器或将当家做主?》,CSDN[注]网站

1 2

参考资料

1.SDN:(Software Defined Network,软件定义网络)是一种新型的开放网络创新架构。最初是由美国斯坦福大学研究组提出,OpenFlow通过将网络设备控制面与数据面分离开来,从而实现...详情>>

[责任编辑:周源 zhou_yuan@cnw.com.cn]

我也说几句