您的位置: 网界网 > 数据中心 > 正文

HPC用户的福音:数据中心运维服务可外包

2014年10月17日 17:55:11 | 作者:周源 | 来源:cnw.com.cn

摘要:7×24小时数据中心在线运维服务是并行科技今年新推出的一项主营业务。该服务主要面向高性能计算(HPC)用户供机群实时体检、故障在线告警、实时查排故障、专业安全卫士、运维分析报表等主动式远程运维服务,这也是国内首项针对HP...

标签
HPC
并行科技
数据中心运维服务

【《网络世界》专稿 】

成立于2007年的北京并行科技有限公司(以下简称“并行科技”)应该属于那种“小而美”的高科技公司:即规模不是很大,但拥有比较强的研发能力和具有特色的产品,同时比较专注,只深耕于一个或几个行业(如并行科技目前主要聚焦于高性能计算行业),有成为该行业某一细分领域ISV龙头企业的可能性。

7×24小时数据中心在线运维服务就是并行科技今年新推出的一项主营业务。该服务主要面向高性能计算(HPC)用户供机群实时体检、故障在线告警、实时查排故障、专业安全卫士、运维分析报表等主动式远程运维服务,这也是国内首项针对HPC行业数据中心运维而推出的外包服务。

“我们的运维服务每60秒对用户机群各节点各指标以及整体运行情况进行主动巡检,一旦发现可疑问题,第一时间以电话、短信、邮件等各种手段向用户告警。如果我们获得了用户的授权,那么通过远程登录,我们运维人员最快十分钟之内就可以帮助用户解决问题。”并行科技CEO陈健说。

并行科技CEO 陈健

与此同时,基于采集的数据量,并行科技还为用户提供数据统计与分析服务。其中,用户数据中心管理员可查看数据中心运营历史数据,做各种统计分析、数据挖掘,领导可查看数据中心整体运营看板,用户的用户——即HPC机群上每个具体作业的负责人也可以查看各自应用的运行情况。

“分析这些数据非常有价值,例如几千台服务器运行了三个月,发现有五个程序占用了70%的机时,那么你只要将五个程序的效率提高20%,就相当于将整个数据中心效率提高14%。当然,这其中有个关键,是我们采集的数据特别丰富和周全,一般的HPC用户自己很难做到这么细粒度的数据采集。”陈健说。

说到这里,我们不得不提并行科技赖以起家的王牌软件Paramon应用运行特征收集器与Paratune应用运行特征分析器。其中,Paramon通过实时监控机群管理/登录节点、计算节点、IO节点等服务器的处理器、内存、网络和存储性能数据,提供机群系统中应用软件随时间变化的运行特征。而Paratune可以分析Paramon生成的应用运行特征文件,重构机群应用运行过程,帮助用户快速定位系统性能瓶颈,找到应用优化的空间和方向。这两款软件组合而成的解决方案在国内高性能计算行业已经积累了不少用户,典型用户包括国家超级计算天津中心、北京市计算中心等公共超算中心,以及许多石油行业的HPC用户。

“并行科技数据中心在线运维服务技术核心就是Paramon与Paratune(+微信关注网络世界),或者说,就是将Paramon与Paratune的功能以云端服务方式提供给用户。”陈健说。

从Paramon与Paratune的功能则可以看出,并行科技数据中心在线运维服务与普通的数据中心运维服务有明显不同,即传统数据中心运维服务主要侧重于监控和诊断数据中心基础设施与IT设备,而并行科技的数据中心运维服务是在监控数据中心IT设备各种指标的基础之上实现对HPC应用的监控与分析,因此,并行科技的数据中心在线运维服务有明显的行业属性,同时也意味着有较高的技术门槛。

谈到目标用户,陈健表示其服务特别适合中小型HPC用户:“中小型HPC用户通常缺乏人手,很难做到数据中心7×24小时监控,而我们的服务费用也不贵,每台服务器每年的服务费用千元左右,因此特别适合集群在1OO节点以下的高性能计算用户。至于那些大型的或者数据中心不能连互联网的HPC用户,他们通常直接部署我们的解决方案。”

目前,并行科技设立在北京的运维服务中心已经为几十家HPC用户近6000台服务器提供实时在线运维服务。

那么未来并行科技是否会将此服务拓展至其他行业用户?

“有这个计划,但我们首先要积累相关行业应用的特征分析库。”陈健回答说。

 

[责任编辑:周源 zhou_yuan@cnw.com.cn]

我也说几句