|
Windows Azure云计算助力”大数据”分析
借助Windows Azure云计算,你也可以享有超级计算机--虽然它放不进你的口袋里,但一定在你的预算范围里。无论你对于大数据有什么问题,Windows Azure都能够以低廉的价格提供超级计算能力。
今天,智能手机的发展已经把一台计算机放进了你的口袋里。现在,借助WindowsAzure云计算,你也可以享有超级计算机--虽然它放不进你的口袋里,但一定在你的预算范围里。无论你对于大数据有什么问题,WindowsAzure都能够以低廉的价格提供超级计算能力。 不妨思考一下近几年超级计算机的发展。就在短短15年前,超级计算机还是稀有而奇异的机器。美国和日本的联邦实验室花了几百万美元引进自定义计算平台,并建造专门设施来安置它们,以便解决世界上最棘手的问题。 但是现在有了一个替代方案,而且它对于科学家和企业而言更具吸引力。今天你可以按小时付费,从公有云提供商那里租用在线超级计算能力。这确实令人震惊! 随用随缴费的Windows Azure云计算平台 WindowsAzure可以帮助确保你所租用的超级计算时间不会超出你的支付能力,而且能够以很简单的方式来执行大规模计算的整体管理。与其他的云服务提供商不同的是,WindowsAzure上并没有需要你管理或存储在你个人帐户所需要的虚拟内存(??VM)图像,考虑到数以十万计的实例,无论是从管理或成本的角度上看,这都可称得上是一种优势。WindowsAzure为你提供操作系统(并且通过补丁程序,使它保持最新状态),你只要将应用程序复制到WindowsAzure上,然后在云中运行即可。 2012微软HPC软件包(The Microsoft HPC Pack 2012,将于今年晚些时候用户就可通过微软下载中心免费下载)能够让你轻松地在WindowsAzure中管理计算资源和安排日程。你也可以将来自WindowsServer的集群管理工具连接到WindowsAzure,然后让它代你完成工作。你需要做的就是开立一个WindowsAzure帐户。一个设置向导将帮助你完成准备工作,而工作调度器则帮你执行计算。 更重要的是,你无需做出任何承诺:你可以随用随缴费,如果你需要大量使用核心工作时间,也可以通过协商,拿到一个优惠的折扣。 正如WindowsAzure产品管理总经理Bill Hilf所指出的那样,用户可以很容易地在WindowsAzure上管理大小和类型不一的工作负载。我们像Bill一样,也都非常关注WindowsAzure超级计算威力所带来的巨大可能性。如此庞大的计算能力对于“大数据”研究是至关重要的--它增进了我们对于复杂系统的理解。 Windows Azure助力“大数据”分析 全基因组关联分析(The genome-wide association study, GWAS)就是一个很好的例子。微软研究院在WindowsAzure上进行了一次27,000核的运行实验,对这项研究所涉及的数据进行处理。节点忙碌了72小时,耗用任务100万条,相当于大约190万个计算小时。如果我们在一个8核系统上运行相同的计算,需要25年才能完成! GWAS提供了一种强大的方法,可用于识别与人类疾病相关的遗传标记。它使用的数据从来自由威康信托基金(Wellcome Trust)提供的一次英国人口研究,有大约2,000个研究对象,此外还为七大疾病中的每一种提供了共计13,000人的共享对照组。但是,与其他全基因组关联分析一样,这项研究必须克服一个重大问题:为了研究特定症状(例如心脏病)的遗传规律,研究人员需要大量罹患此类疾病的人口样本,这就意味着其中一些人可能会与另一些人之间存在某种关系--即使是非常疏远的关系。这也就是说,基因与心脏病之间的某些正向关联可能是“假阳性”:在结果中,两个人有着共同的祖先,而不是有共同的冠状动脉堵塞倾向。换句话说,你的样品并非真正随机的,而且你必须从统计学角度上纠正这种由于样本之间存在关联性而造成的“混淆”. 这并不是一个难以逾越的统计问题:线性混合模型(LMMS)就可以消除这种混淆。然而,这一模型的使用却是一个计算问题,因为人们将需要数量上超乎想象的计算机运行时间和内存来运行LMMS,以排除成千上万的样品之间所存在的关联。事实上,数据集中个体的数量每增加一倍,运行这些模型所需要的时间和内存占用将呈两次方或三次方比例增长。所以,如果样品总体为1万人,所需的计算时间和内存成本将是令人望而却步的。然而,这些大型数据集恰恰正是发现遗传和疾病之间关联的最大希望所在。 为了避免这种计算上的障碍,微软研究院开发了Factored Spectrally Transformed Linear Mixed Model(简称FaST-LMM),这种算法能够使用比先前大几个数量级的数据,增强发现新生物关系的能力。它允许处理更大的数据集,因而可以检测到数据中更加微妙的信号。 借助WindowsAzure,微软研究院对威康信托基金的数据运行F??aST-LMM,分析了63,524,915,020对遗传标记,并在这些双极性疾病、冠状动脉疾病、高血压、炎症性肠道疾病(Crohn氏病)、类风湿关节炎和I型及II型糖尿病的标记之间寻找相互关联。结果,我们发现了基因组与这些疾病之间的新关联,而这些发现可能预示着上述疾病在预防和治疗上的潜在突破。 读者可以在WindowsAzure市场上(免费登录)“7种常见疾病上位显性GWAS”中在线查询单个基因对和FaST-LMM算法的结果。这样,研究人员就可以独立验证他们在实验室中获得的结果。 今天,智能手机的发展已经把一台计算机放进了你的口袋里。现在,借助WindowsAzure云计算,你也可以享有超级计算机--虽然它放不进你的口袋里,但一定在你的预算范围里。无论你对于大数据有什么问题,WindowsAzure都能够以低廉的价格提供超级计算能力。
责编:chrislee2012
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
推荐圈子
|
|