对付大数据的小伎俩

来源:中国共产党新闻网   
2013/12/10 9:36:53
大数据是当前的热门话题。各行各业,到处都有人谈论大数据。

本文关键字: 大数据

大数据是当前的热门话题。各行各业,到处都有人谈论大数据。就人的基因来说,大数据这部“天书”总共30亿个字。在检验过程中,为了不看走眼大数据,保证结论准确可靠,惯例是每一个字检验30次以上。因为30亿的数据量实在太大,需要通过相当程度的重复来排除错误。为了把一个人的基因通读一遍,得念1000亿个字,真真的就是大数据。

先不说如何分析、解读这部书,如何理解全书或者它的某些章节、段落的含意。挖掘大数据所蕴含的宝藏是一个难题。生物信息学是当今的热门专业,非常抢手。我们只看第一步,生物学家要动用什麽样的心思和手段,才能把这套数据拿到手。

基因技术上的改进共有3次,但是远远没有到达终点。

最初的技术,一次只能读100个字。100对1000亿,那是愚公移山。於是人们着手改进技术,增加长度。成就也不能说没有,终於可以从100个读到1000个了,手工操作也改成机器自动化了。十年过去,提高了十倍。然而,1000是该技术的极限,再也难以延长。

这时,有人想到了把基因分成小组。大数据不好对付,分班分组可以减轻负担。首先把基因切断成大片段,再想办法将这些大片段复制几万份,满足后续操作需要;然后分头检测各个片段。拿到数据后,先把大片段组装出来,作为骨架;再用骨架搭出整个基因组。

这里头的每一步都是可以做到的,人们努力的方向自然而然就从增加读长改成了增加基因片段的长度。增加长度很容易,但是长片段的复制是一个问题,操作繁琐,速度简直就是乌龟爬。

面对这种窘境,文特尔想起了猎鸟。身处旷野,鸟儿的个头实在是太小了。它们飞在空中,即使看见了,打下来也不容易。霰弹枪是对付飞鸟的有效武器。一打一片,碰到鸟儿的机会比较多。基因散布在数据的汪洋大海中,要抓住同样不容易。也许霰弹枪也是对付基因的一个办法?文特尔的想法是跳过困难的长片段复制,把基因打成更短的片段,直接测序。短片段的复制比较容易,好比霰弹;短片段拼基因组,好比拼图游戏。

突然有人提出这样的胡思乱想,冀求朝天胡乱放一枪就碰到个把基因,完全不被看好。鸟枪法遭致一片反对。由於申请不到经费,文特尔干脆自己动手,成立了一家公司,与官方研究机构展开竞赛。他们很快就测定了果蝇和人类的基因,速度之快,可比兔子。号称可以与阿波罗登月计划相媲美的人类基因组计划,在鸟枪法加入竞争之后,迅速完成了。当美国总统宣布该计划完工的时候,当初申请不到经费的人也站在克林顿旁边。

共2页: 上一页1 [2]
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map