|
对付大数据的小伎俩
大数据是当前的热门话题。各行各业,到处都有人谈论大数据。
大数据是当前的热门话题。各行各业,到处都有人谈论大数据。就人的基因来说,大数据这部“天书”总共30亿个字。在检验过程中,为了不看走眼大数据,保证结论准确可靠,惯例是每一个字检验30次以上。因为30亿的数据量实在太大,需要通过相当程度的重复来排除错误。为了把一个人的基因通读一遍,得念1000亿个字,真真的就是大数据。 先不说如何分析、解读这部书,如何理解全书或者它的某些章节、段落的含意。挖掘大数据所蕴含的宝藏是一个难题。生物信息学是当今的热门专业,非常抢手。我们只看第一步,生物学家要动用什麽样的心思和手段,才能把这套数据拿到手。 基因技术上的改进共有3次,但是远远没有到达终点。 最初的技术,一次只能读100个字。100对1000亿,那是愚公移山。於是人们着手改进技术,增加长度。成就也不能说没有,终於可以从100个读到1000个了,手工操作也改成机器自动化了。十年过去,提高了十倍。然而,1000是该技术的极限,再也难以延长。 这时,有人想到了把基因分成小组。大数据不好对付,分班分组可以减轻负担。首先把基因切断成大片段,再想办法将这些大片段复制几万份,满足后续操作需要;然后分头检测各个片段。拿到数据后,先把大片段组装出来,作为骨架;再用骨架搭出整个基因组。 这里头的每一步都是可以做到的,人们努力的方向自然而然就从增加读长改成了增加基因片段的长度。增加长度很容易,但是长片段的复制是一个问题,操作繁琐,速度简直就是乌龟爬。 面对这种窘境,文特尔想起了猎鸟。身处旷野,鸟儿的个头实在是太小了。它们飞在空中,即使看见了,打下来也不容易。霰弹枪是对付飞鸟的有效武器。一打一片,碰到鸟儿的机会比较多。基因散布在数据的汪洋大海中,要抓住同样不容易。也许霰弹枪也是对付基因的一个办法?文特尔的想法是跳过困难的长片段复制,把基因打成更短的片段,直接测序。短片段的复制比较容易,好比霰弹;短片段拼基因组,好比拼图游戏。 突然有人提出这样的胡思乱想,冀求朝天胡乱放一枪就碰到个把基因,完全不被看好。鸟枪法遭致一片反对。由於申请不到经费,文特尔干脆自己动手,成立了一家公司,与官方研究机构展开竞赛。他们很快就测定了果蝇和人类的基因,速度之快,可比兔子。号称可以与阿波罗登月计划相媲美的人类基因组计划,在鸟枪法加入竞争之后,迅速完成了。当美国总统宣布该计划完工的时候,当初申请不到经费的人也站在克林顿旁边。
责编:王雅京
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|