对付大数据的小伎俩

来源: 中国共产党新闻网
2013/12/10 9:36:53
大数据是当前的热门话题。各行各业,到处都有人谈论大数据。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据

从此,所有人都倒向鸟枪法。

每次只拿一条序列,速度还是成问题。人基因组计划历时10年,光文特尔的私人公司就花了10亿美金,只测出一个人的基因。还有谁能付得起这样的代价呢?於是,提高规模就成了紧迫的任务。如果一次检验能拿到几百万条序列,读基因不就像读小说了吗?这一看似不可能的梦想,人们还真的通过平行测序做到了。但是任何事情都有两面。为了实现超大规模,就不得不牺牲长度,由1000倒退回100。新技术刚起步的时候还要短,只有区区35个字,简直令人齿冷。尽管长度短,数据总量却不少,是原来的6百万倍。靠长度35的片段居然能拼出基因组,不能不令人惊叹。基因技术终於跨出了一大步,被尊为第二代。

官二代、富二代,都不如基因技术第二代。这一跨越留给人们的印象实在太深了,流风余韵,以至今天,尽管二代技术的长度能轻松达到两三百,还是经常有人问:你们还做35吗?

片段化看似笨拙、凌乱,没有效率,却是快刀斩乱麻地解决复杂问题、对付大数据的不二法门。我们做美味的狮子头,要把五花肉乱刀剁碎。被剁碎的基因组,味道也很鲜美。

创新没有止境。新技术虽然大获成功,但是读长实在短了点,对不住人,数据组装相当吃力。那是用筷子拼出京广线的活儿,计算机都是一屋子、一屋子地摆着,蔚为壮观,也令人望洋兴叹。如何提高效率呢?人们又想起了基因分组的老黄历。把基因切成大片段后,分别做好标记,各自处理成二代测序所要求的长短,再混合起来一起测序。在数据组装的时候,先按记号分别组装,形成骨架,再用骨架进行第二轮组装。本来一步完成的任务,现在分成两步,计算机的负担大大降低。想出这个金点子的人也成立了一家公司,总共只有6名员工。小公司被大公司收购,花费1.6亿美元。

看完近30年来基因技术的发展历程,你也许很不服气:这算什麽,也不过大虫拿人,只是一扑、一掀、一剪;对付基因组,只有延长、分组、拼图三招,程咬金的三板斧,来回折腾。是的,治大国若烹小鲜,对付大数据,要用小片段。

共2页: [1]2 下一页
责编:王雅京
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map