扫描二维码

订阅kaiyun体育官方人口 微信

当Hadoop遇上DNA遗传科学

来源:TechTarget中国   
2013/12/12 9:45:01
然而想要将Hadoop架构与DBA数据处理联系起来,这就极具挑战,其中之一就是团队建设。

本文关键字: Hadoop DNA

对于Ancestry.com(家谱网)的技术总监Scott Sorensen来说,大数据其实并不陌生。长久以来,Sorensen和他的同事都在使用Apache Hadoop以及其他的开源工具来进行数据处理和分析。然而想要将Hadoop架构与DBA数据处理联系起来,这就极具挑战,其中之一就是团队建设。

据了解,Ancestry.com是一家家谱在线服务网站,它拥有10 PB的家族遗传数据,Sorensen和他的团队需要在海量数据集中进行信息的检索。

Sorensen透露,他们构建了自己的搜索引擎,并对算法以及记录连接软件进行了仔细的调优,该软件可以对网站的结构化数据和非结构化数据进行遍历。Ancestry.com网站包含了大量出生、死亡、人口普查以及其他相关记录,这些记录大多是非结构化数据。

随着用户以及家族数据的不断增长,Ancestry.com希望改善其信息检索的算法。对于Sorensen来说,这是他在公司12年的历史中最具挑战性的任务之一。他的团队认为,通过使用网站访问者导航可以对算法进行优化。

Sorensen表示:“公司招募了一些数据科学家,最初我认为他们可以用Ancestry.com已有的技术配合机器学习等技术来改善算法。但最终他们并没有这样做,而是选择了使用最新的工具。因此我们把Hadoop、MapReduce以及R语言引入了Ancestry.com的工具集。”

不一样的代码

Ancestry.com的团队使用Hadoop架构来对搜索进行优化,同时对客户流失率进行预测建模。在一年半以前,公司开始使用Hadoop以及相关的HBase NoSQL列式数据存储来对AncestryDNA产品进行扩展。该产品使用染色体DNA测试技术来为用户提供更好的服务,甚至能够对远亲进行准确识别,从而让Ancestry.com获得用户的认可。

据Sorensen介绍,这其中涉及到大量的操作。大约有70万个DNA样本要与Ancestry.com数据库汇总已有的相同数量样本进行配对比较。这就是Hadoop以及数据科学家要做的主要工作。Sorensen的团队对学术算法进行了改写,从而可以在Hadoop和HBase上运行并行的任务,这样做可以大大提升海量数据处理的速度。

当科学家遇到软件工程师

让Hadoop架构以及HBase应用到DNA数据匹配上,这不是一个简单的工作,它需要团队的主管人员有灵活的头脑。Sorensen以及其他部门的主管需要创建这样一个环境,能够让科学家与IT技术人员良好协作的环境。

共2页: 上一页1 [2]
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map