您的位置: 网界网 > 数据中心 > 正文

谷歌数据中心神经网络运营优化介绍

2015年02月12日 17:18:17 | 作者:腾讯网络平台部数据中心规划组 李典林 | 来源:cnw.com.cn

摘要:在新加坡举办的Datacenter Dynamics 2014会议上,谷歌数据中心副总裁Joe Kava和天才小子Jim Gao介绍了自己的公司是如何利用机器学习和人工智能来进一步改进数据中心能效到1.1以下的。

标签
谷歌
绿色节能
神经网络
数据中心

互联网的飞速发展加大了对大规模数据中心(DCS)的需求,同时也带来能耗的巨幅上升,目前数据中心的能耗已经超过了1.3%的全球能源使用量。谷歌的数据中心以高能效著称,通过创新的市电直供、热空气隔离、水侧节能等技术和大量的运营优化,PUE达到了惊人的1.12领先水平。但是他们还不满足,在新加坡举办的Datacenter Dynamics 2014会议上,谷歌数据中心副总裁Joe Kava和天才小子Jim Gao介绍了自己的公司是如何利用机器学习和人工智能来进一步改进数据中心能效到1.1以下的。

图1 数据中心可以更为节能

业界一般用 PUE(电能使用效率)来衡量数据中心的能效,PUE=数据中心总设备能耗/IT设备能耗,其基准值为2,越接近1表明能效越高。如图2一个典型的谷歌数据中心在投产初期的PUE达到了1.25左右,谷歌通过持续的运营优化将PUE降低到了1.12。但即便优秀如谷歌要想进一步降低PUE值也变得越来越难。因为到了一定程度之后,制冷和电气系统之间的相互作用和各种复杂反馈回路,使得难以准确使用传统的工程公式来推导优化数据中心的效率。比如冷通道温度的较小提升都会导致制冷系统的很多变化,如冷机、冷却塔、换热器、水泵等的功耗都将增加或减少,且非线性变化,结果可能是冷通道温度提升了但总功耗也会带来增加。

图2 谷歌数据中心的PUE进一步优化碰到瓶颈

为了解决这些问题,谷歌 决定利用机器学习神经网络算法让其数据中心能效更上一层楼。神经网络通过神经元之间的相互作用来模仿认知行为,是一类机器学习算法。机器学习的这个分支常见的应用包括语音识别,图象处理,和自主软件代理等。机器学习方法利用现有的大量传感器数据来建立一个数学模型,理解操作参数之间的关系从而提升整体学习效率,如图3语音识别。

图3 机器学习在语音识别中的应用

据 Kava 介绍,该项目属于谷歌的20%业余时间创新项目。他们每30秒就计算一次 PUE,还不断跟踪 IT 设备能耗、室外气温以及制冷等机电设备的设置情况等。而谷歌数据中心团队成员Jim Gao对这些数据非常熟悉,他意识到这些数据还可以进一步利用。于是Jim回归本源,获取数据,分析数据,因为谷歌的BMS、PMS以及控制系统每天产生数以亿计的原始运行数据,虽然人类难以理解,但机器却很擅长于挖掘。通过机器学习对这些数据进行研究,并建立起模型来预测并进一步改善数据中心的能效。

结果表明,该模型的预测准确率达到了 99.6%(图4所示)。如此高的准确率意味着谷歌对数据中心下一步的能量需求情况将了如指掌,从而可以通过调整参数设置进一步提升能效。Kava 举了一个例子,几个月前,他们有几台服务器要下线几天,其结果是数据中心能效会有所降低。但利用Jim Gao的模型他们临时调整了制冷参数,通过PUE仿真与历史数据的结合,该团队选定了一套新的运营参数,从而将 PUE 再降低了0.02。

图4 谷歌某个数据中心在夏天一个月内的实际PUE值和预测值的比较

可不要小看这个0.02,考虑到谷歌有几十上百万台服务器,乘上巨大的量,就有可观的节能效果。需要注意的是该案例中PUE值大于1.14是因为不能提供足够的实际运行数据支持。如果谷歌能收集更多该数据中心运行数据的话,其PUE模型的精度值预计随时间会进一步增加。

Jim Gao 在随后发布的白皮书上解释了自己的做法。他说采用神经网络机器学习方法对复杂系统建模具有优势,因为神经网络不需要用户预设模型的交互特征,而是在数据中自行寻找模式和交互,然后自动生成最佳匹配模型。

该神经网络研究的要素包括了服务器总负载、水泵、冷却塔、冷水机组、干式冷却器、湿球温度、户外湿度、风速、风向等,如图5总计多达19个变量。谷歌利用传感器部署了几万个数据点来收集这些基础设施运行数据和电能使用信息。不过令人略为惊讶的是,谷歌只用一台服务器就能跑整个神经网络系统了。

图5 典型数据中心建模涉及到的各种变量

具有准确和健壮的PUE机器学习模型将给数据中心运营方和业主能提供很多好处。例如,对于任何给定一组条件下的数据中心实际性能与预测性能的比较数据,将可用于自动运行报警,运行效益指标设定和故障排除等。

一个强大的效率模型还使数据中心运营商方便评估数据中心变量参数带来的PUE敏感性。 例如图6中,对谷歌某一个数据中心冷通道温度(CAT)和PUE之间关系模拟,可以推导出通过增加3华氏度的冷却塔出水温度(LWT),理论上有望达到0.5%的总PUE降低。这种PUE值降低的模拟分析,在实际测试优化中也得到了很好的验证。这种影响参量确定和PUE降低的幅度敏感度分析,可以带来显著的试验成本降低和碳排放减少。

Jim Gao 在白皮书中写道,谷歌 数据中心的实际测试表明,机器学习是利用传感器数据对数据中心能效建模的一种有效方法,可带来显著的成本节省。不过对于目前国内较为粗放式管理的数据中心恐怕短时间内难以效仿。

图6 机器学习方法用于数据中心能效建模

由于现代数据中心的复杂性,以及多个控制系统之间会有相互作用。目前阶段下,数据中心运营方是很难预测改变配置参数将会带来的影响。机器学习方法可以利用现有的传感器数据,来开发能够理解运行参数和整体能源效率之间关系的数学模型。准确的数据中心效率模型可以让数据中心运营商无需现场调试就能够优化运行配置。这种机器学习模拟能让数据中心运营方将数据中心虚拟化仿真来得到最优模型参数,同时减少冷站参数变化带来的不确定性风险。

图7 虚拟数据中心建模可用于仿真分析减少现场试验不确定性

根据前面的分析,可以建模仿真图5各个运行变量参数对数据中心PUE的影响。我们通过让某一个输入变量线性变化,同时保持其他所有变量不变。这种灵敏度分析被用于评估某一参数变化带来的影响,并用于确定其最佳的设定值。下面的这些所有测试结果已被实际得到了验证。

图8(a)IT负载和PUE之间的关系 图8(b)运行冷机数量和PUE之间的关系

图8(a)展示PUE和服务器IT负载之间的关系,在0到70%最大负载的范围内PUE值得到快速降低。但在70%以上负载范围下PUE值却逐渐平缓。这个特点也在谷歌数据中心的历史PUE数据中得到验证,初期的PUE值随IT负载增加而迅速降低,这是由于负载增加带来PUE分母增加和冷却系统得到更有效的利用。然后在重载下PUE VS IT的曲线会逐渐趋于平缓,因为此时冷却系统已接近其最大的效率和运营能力。

图8(b)示出的PUE和工作制冷机数量之间的关系。正如预期的那样,有更多的冷水机组启动工作将带来PUE的显著增加。且PUE和运行冷机数量之间的关系为非线性,因为轻载下冷机制冷效率将以指数级降低。

图8(c)冷却塔数量和PUE之间的关系 图8(d)冷却塔出水温度和PUE之间的关系

12
[责任编辑:周源 zhou_yuan@cnw.com.cn]

我也说几句

热点排行