超级计算机正面临日益严峻的弹性问题

来源:51CTO  作者:布加迪编译
2012/12/4 10:08:25
随着超级计算机的功能变得越来越强,它们也变得更容易出现故障,这归因于内置部件的数量越来越多。近日出席在盐湖城举行的SC12超级计算机大会的几名研究人员提出了一些解决方案,有望解决这个日益严峻的问题。



本文关键字: 超级计算机 HPC 弹性计算

随着超级计算机的功能变得越来越强,它们也变得更容易出现故障,这归因于内置部件的数量越来越多。近日出席在盐湖城举行的SC12超级计算机大会的几名研究人员提出了一些解决方案,有望解决这个日益严峻的问题。

今天的高性能运算(HPC)系统可能拥有10万个或更多的节点,而每个节点都是由内存、处理器、总线及其他电路等多个部件制造而成的。北卡罗来纳州立大学的博士生David Fiala在SC12大会上演讲时表示,从统计数字上来看,所有这些部件必然会在某个时候出现故障;一旦出现了故障,就会导致超级计算机停止运行。

当然,这个问题不是什么新问题。美国劳伦斯•利弗莫尔国家实验室拥有600个节点的ASCI(加速战略计算计划)White超级计算机当初在2001年投入使用时,平均无故障时间(MTBF)只有短短的5小时,这在很大程度上归咎于部件故障频出。Fiala表示,后来经过一番调校后,ASCI White的MTBF延长到了55个小时。

但是随着超级计算机节点的数量越来越多,这个问题也会越来越严峻。Fiala说:“这方面必须得采取相应的办法。随着我们跨入到百亿次计算(exascale)时代,这个问题只会更加严峻。”他表示,就计算能力而言,未来十年的超级计算机将是今天的超级计算机的十倍。

Fiala表示,如今处理系统故障的技术和方法可能并不具有很强的扩展性。他以设置检查点(checkpointing)这个方法为例:某个运行中的程序被暂时停止,其状态保存到磁盘上;要是该程序之后崩溃,系统就可以从上一个检查点重启任务。

据Fiala声称,设置检查点这种方法存在的问题是,随着节点数量增多,设置检查点所需的系统开销也随之加大,而且急剧加大。举例说,在一台拥有10万个节点的超级计算机上,只有大约35%的活动与执行作业有关。Fiala估计,其余活动将被设置检查点以及一旦系统出现故障,就会进行的恢复操作所占用。

Fiala表示,由于百亿次计算系统需要种种的额外硬件(这种系统可能由上百万或更多个部件制造而成),系统的可靠性就必须提高100倍,那样才能维持与如今的超级计算机同样的MTBF。

Fiala介绍了他和其他研究员共同研发的有助于提高稳定性的技术。这项技术解决了静态数据毁坏问题,这个问题具体是指系统将数据写入到磁盘时,出现了错误,但又没有被检测出来。

从根本上来说,研究人员采用的方法是指,同时运行某个程序的多个副本(或“克隆版”),然后比对答案。名为RedMPI的软件与消息传递接口(MPI)一同运行,后者是个函数库,用于将运行中的应用程序分隔到多台服务器上,那样程序的不同部分就可以并行执行。

RedMPI会拦截并复制应用程序发送的每一个MPI消息,然后将消息副本发送到程序的一个克隆版(或多个克隆版)。如果不同的克隆版计算出不同的答案,那么就会迅速重新计算数字,这样可以节省再次运行整个程序所需的时间和资源。

Fiala说:“实现冗余机制并不需要高昂成本。所需的处理器核心数量可能很多,但是这避免了需要重写操作以及检查点重启操作。当然,另一个办法就是只要重新运行作业,直到你认为获得了正确的答案。”

Fiala建议每个程序做二个备用副本,实现三重冗余机制。虽然运行中的程序做多个副本一开始可能要耗费更多的资源,但是久而久之,它实际上更高效,那是由于程序不需要重新运行就可以检查答案。此外,多个副本在运行时,可能不需要设置检查点,这也有望省下系统资源。

出席会议的加利福尼亚大学圣克鲁兹分校计算机学教授Ethan Miller说:“我认为,确保冗余机制这个想法实际上是个好点子。就非常庞大的计算(涉及成千上万个节点)而言,肯定会出现错误可能悄然发生的情况。”但是他表示,考虑到这类冗余机制可能带来的庞大网络流量,这个方法也许不是很适合。他倒是建议,在同一组节点上运行所有的应用程序,这样有望尽量减少节点与节点之间的通信流量。

在另一场报告会上,伊利诺伊大学厄巴纳-尚佩恩分校的博士生Ana Gainaru则介绍了一种方法:分析日志文件,从而预测系统何时可能出现故障。

这种方法把信号分析和数据挖掘结合起来。信号分析用来确定正常行为的特点,那样当故障出现时,就很容易发现故障。数据挖掘则寻找不同的已报告错误之间的关联性。其他研究人员表明,诸多故障有时彼此相互关联;据Gainaru表示,那是由于某一项技术出现的故障可能会影响其他技术的性能。比如说,当网卡出现故障时,很快就会妨碍依靠网络通信的其他系统进程。

研究人员发现,70%的关联故障提供了10多秒的机会窗口。换句话说,发现故障的第一个征兆后,系统在更严重的故障出现之前最多有10秒时间来保存其处理的工作,或者将工作转移到另一个节点上。Gainaru说:“可以将故障预测与其他容错技术或方法结合运用。”

责编:杨雪姣
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
IT系统一体化时代来了

2009年Oracle 用Exadata服务器告诉企业,数据中心的IT服务一体化解决方案才是大势所趋,而当前企业对大数据处理的..

高性能计算——企业未来发展的必备..

“天河二号”问鼎最新全球超级计算机500强,更新的Linpack值让世界认识到了“中国速度”。但超算不能只停留于追求..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map