办公桌上的“万亿次超算中心”

作者:Amteam.org
2009/3/16 16:23:00
本文关键字: 服务器 应用

一、测试目的

2009年3月2日,浪潮发布“倚天”桌面超级计算机(以下简称浪潮“倚天”),单机计算能力最高可达每秒4万亿次,市场售价仅为5万元,真正实现了将超级计算机从庞大的机房和计算中心转移到了用户的桌面。

浪潮“倚天” 采用CPU-GPU协同计算加速架构,以CPU和GPU双计算核心实现协同计算加速。其中,CPU专职逻辑选择、判断跳转和IO通信计算,GPU专职计算密集型、高度并行的计算任务,使得计算资源得到合理分配,计算力被充分释放,计算性能实现几倍到几百倍的增长。浪潮“倚天”在相当于普通PC的体积上实现了万亿次的计算性能,为大量数据并行处理、计算密集型应用提供了一种全新的超高性价比的解决方案。

为了对其在实际高性能计算应用中的性能和产品特性进行评估,我们挑选了分子动力学和天体物理学领域的两个HPC应用进行了测试,对比浪潮“倚天”与X86架构集群在实际应用环境下的计算性能,以及它对单机应用的加速比,我们特地设计了两个测试场景(这里的浪潮“倚天”按照一万亿次计算能力配置):

二、测试方案1:浪潮“倚天”VS 4节点X86集群

对比双方介绍:浪潮“倚天”与4节点X86架构高性能计算集群的比较,集群节点采用了1U双路机架服务器,下表是对比双方的配置:

测试算例:

分子动力学模拟是通过求解系统中所有粒子的运动方程来得到粒子的运动轨迹。在模拟中,粒子间相互作用的计算占用了大部分机时,不同的粒子间势能模型需要的计算时间是不同的,其中势能函数随距离衰减的速度是一个重要的影响因素。分子动力学模拟在新材料设计、蛋白质折叠、新药研发等领域中发挥着极为重要的作用,由于计算量大,这是一类非常典型的高性能计算应用。

Nanopore算例是通过分子动力学的方法,利用NAMD软件进行模拟计算,对硅纳米孔柱阵列的排列结构进行研究,并用可视化软件VMD将其显示出来。该算例既可以在集群上进行任务分发和并行计算,也可以在支持CUDA架构的NVIDIA GPU上进行单GPU运算或多GPU并行运算,具备比较可能和比较意义。

在运行机制上,NAMD基于Charm++并行支持库,高端硬件平台上可以保持较高并行效率直到数千个处理器规模。NAMD最有特色的地方是通过Charm++实现了动态负载平衡,能够很容易地扩展到数百乃至数千个处理器上运行,效率却不会下降太多。

VMD是分子可视化软件使用OpenGL提供高质量的3D分子图形,用于显示、动画演示和分析大的生物分子体系,原子、分子、残基的数量,以及动画画面的数量,在内存允许的范围内没有任何限制。

测试过程

在集群上的NAMD采用charmrun软件进行任务分发,这里采用了VMD图形显示和NAMD计算同时进行的运行方式。即开启VMD进行图形化对算例的分子结构进行显示,之后connect进行计算,实时计算其每个时刻的各种状态。

此套测试程序中,namd2为namd的mpi程序,除namd自身的功能外,它还负责进行消息传递和任务分发等,namd_openmpi_gpu为用CUDA改写后的namd程序。测试命令为
mpirun ./namd2 namd_openmpi_gpu nanopore.namd
而对于集群上的namd程序,可以采用charmrun命令来进行并行计算,+p32代表用32个核来进行并行计算,测试命令为
charmrun +p32 ./namd nanopore.namd
为了方便操作,我们仅计算了1000个step下的计算时间作为对比。

测试结果

由测试结果截图可以看出,浪潮“倚天”所用的时间为65.9s (wallclock),而4节点集群同样的计算任务所用的时间为120.7s,可见在该算例下,浪潮“倚天”的运算效率大约是4节点集群的两倍。此外,利用VMD启动可视化分子模型时,浪潮“倚天”的VMD建模速度更是明显比集群快。

浪潮“倚天”的测试成绩

集群测试成绩

三、测试方案2 :浪潮“倚天”VS 四路四核服务器

对比双方介绍:

测试算例:

N-Body 问题是天体物理学的基本计算模型。在问题域中有N个天体,这些天体之间互相存在万有引力、以及其他作用力,使得这些天体发生运动. N-Body计算的目的是预测在未来某个时刻,这些天体所处的状态。

N-Body 问题在并行计算模型上,对数据并行和分治等并行算法设计方法、并行算法的复杂性分析、以及算法设计中伸缩性和效率等都有很高的研究价值。

测试过程

本次采用的算例规模为16384 bodies,分别在浪潮“倚天”和四路服务器上运行各自的计算及显示程序nbody_gpu(GPU环境下利用CUDA程序优化,用GPU进行运算)和nbody_comic(可利用单机上所有CPU资源进行运算)。

测试结果

浪潮“倚天”运行结果截图

四路服务器的测试截图

首先,从图形显示可以明显看出计算速度的快慢,由于计算速度快,浪潮“倚天”上显示的nbody画面流畅,而四路服务器上的nbody画面则顿感很强,实际测试数据如下:

浪潮“倚天”的测试成绩

四路服务器的测试成绩

其次,浪潮“倚天”在GPU环境下利用CUDA优化过的nbody程序可以达到235.4 GFlops的计算能力,而四路服务器仅发挥了11.1 GFlops的计算能力,浪潮“倚天”比四路服务器快了20倍!而且“倚天”超算的CPU 占用率仅仅为10%左右,四路服务器CPU 16个核的占用率却已经达到了100%。

四、测试结论及分析:


通过从以上两个测试方案,我们可以得到以下结论:

1. 相比传统集群,万亿次浪潮“倚天”的计算性能是4节点集群性能的2倍,而相比一台四路服务器,它的加速比至少能提升1-2个数量级,而成本只有四路服务器的1/4。

2.部署更加便捷,同样部署一个分子动力学的应用,倚天只需30分钟,而在集群上部署则需要5倍的时间,而集群由于噪音太大,必须放在单独的机房里。

3. 从微观分子动力学研究到宏观的宇宙星体碰撞实验,反映了“倚天”超算在计算密集型、大规模数据并行处理的高性能应用中优势明显。

结语

浪潮“倚天”凭借创新的协同计算加速架构,出色的万亿次并行处理能力和小体积、低噪音、高性价比等特点,在生命科学(分子动力学、基因排序、蛋白质折叠、计算化学)、工程科学(CAD/CAM/CAE、天体物理、CFD、Mathematics、LabView)、国防科技(武器、图像处理、战地模拟)、医疗(MRI、CT、影像辅助治疗)、石油石化(地震资料处理、油藏模拟)、金融(风险分析,衍生性金融商品模拟 交易算法)、可视化(渲染农场)、EDA(SPICE、Verilog、3D EM)等高性能计算领域有着广阔的应用前景,它的普及将为广大科研机构带来计算效率的巨大提升,同时也为我国高性能计算的普及开拓了新的路径。

责编:
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
IT系统一体化时代来了

2009年Oracle 用Exadata服务器告诉企业,数据中心的IT服务一体化解决方案才是大势所趋,而当前企业对大数据处理的..

高性能计算——企业未来发展的必备..

“天河二号”问鼎最新全球超级计算机500强,更新的Linpack值让世界认识到了“中国速度”。但超算不能只停留于追求..

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map