在Facebook身上找到的大数据灵感

来源: 36kr
2012/11/5 14:27:03
要想预测大数据的走势,明确自己的关注点,Facebook是不二之选,因为它收集的数据可谓海量(100PB,也即102400TB)。而要想处理这些数据,Cassandra NoSQL数据存储+Hive查询语言+Hadoop分布式数据库是最佳拍档。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 Facebook Hadoop

要想预测大数据的走势,明确自己的关注点,Facebook是不二之选,因为它收集的数据可谓海量(100PB,也即102400TB)。而要想处理这些数据,Cassandra NoSQL数据存储+Hive查询语言+Hadoop分布式数据库是最佳拍档。此文谈到了大数据初创企业应该如何从Facebook身上学习自己的突破方向。

机遇之一:Hadoop大众化

通过Hadoop和NoSQL进行基础设施层创新是机遇一。

Facebook几乎把Hadoop运用到了方方面面,从朋友推荐到定向广告乃至于数据中心分析,不一而足,大数据被分割成了字节大小的碎片。不过,要服务好这一切意味着需要确保其各部门的用户都能够以一种有意义的方式跟Hadoop交互。

定制化的工具、接口及虚拟层为这个问题的解决提供了帮助。技术门槛降低以后,Facebook的非技术用户也能够利用Hadoop生成报表、查看分析了。帮助创建了Hive的几位前Facebook员工还推出了云版的Hive —Qubole,可以通过Hive的签名SQL接口提供对Hadoop的请求式访问。Facebook希望创建出有助于降低Hadoop使用难度的工具,把大数据的应用效率提高上去。

机遇之二:超越Hadoop

但是有时候跳出已有的框架(如Hadoop和NoSQL存储)也许也能够闯出一片新天地。这一切都取决于需求。大家用Hadoop是因为它是免费的、开源的。但是,要想实现自己的需求往往需要在Hadoop上面做大量工作。有很多大数据的问题跟Hadoop是无关的,所以另起炉灶也许不失为一种解决之道。Facebook的图谱数据库用的是MySQL,其开发TimeLine和Newsfeed的后台用的也是它,一切均应根据需要来选择。

不过对于初创企业来说,在选择应用开发平台的时候还是要有所权衡。Accel Partners的Ping Li的忠告是,够好是伟大的敌人。要想成就伟大,也许就得突破Hadoop。

机遇之三:做大,像数据中心那么大

Facebook今年8月推出了数据中心的一项深度存储新战略,打算从头设计数据中心,以期可以处理长期较少被访问的数据存储,而非比较稳定的web事务流。

这种变化绝非递进式的变化,跟过去的数据中心相比有着很大的不同。这种能源集约型的数据中心力图将计算节省下来的每一度电都分配给对电力需求要少得多的处理上,但是这些处理还是需要把数据交付给用户和分析引擎。这是一个巨大的挑战,因为越来越多的企业已经意识到历史数据的重要性。

Facebook打算通过Open Compute项目将其设计开放,其中已有部分管理工作在Apache Hadoop项目中实现,这对于初创企业来说是个好消息,他们只需要做剩下的事情就行了。

责编:杨雪姣
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map