大数据两三事之大数据不只是Hadoop

来源: ChinaByte作者:非仙居 博客
2012/10/23 12:50:54
这段时间接触大数据相关项目比较多,自然有些体会和感触。感觉到自己之前对于这个领域的认识并不全面,这里主要是讲大数据应用场景以及和传统方案的区别等等希望能够帮大家理清些大数据的概念性问题。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 结构化数据 Hadoop

但是,在某些情况下大数据技术也能比RISC架构更好的解决一些传统的结构化数据问题,比如ETL。在一些行业里,ETL工作往往需要一个很长的处理流程。利用Map/Reduce技术可以大大缩短ETL的工作流程,提高效率,而且随着数据量的不断增长,这种优势会越来越明显。所以说,是否用Hadoop去尝试替代原先的RISC架构,关键还是看数据量是否够大以及数据类型是否多样化。

大数据三两事之大数据不是只有Hadoop

以上这张图取自BI Reasrch。以数据查询的延迟性需求为纵轴,数据量和结构化程度为横轴列出了Hadoop技术和传统关系型即RDBMS的应用场景区别。Hadoop 之所以会出现其实就是为了应付海量的非结构化数据的离线分析的。所以其应用场景也基本是以此类为强项,即数据量大,结构化程度低,分析的实时性要求不高。当然随着其技术的发展,外沿通过不同组件如Hive的补充有所拓展。但要其完全取代原先的RDBMS基本是不可能的事情。

正如第一张图所说,大数据时代,没有一种方案是可以包打天下的。企业内部未来也必将是多种方案并存来处理各类不同类型数据的环境。下面试着将目前数据库的几类应用场景分分类,同时列出了每一类国内外的一些解决方案名字。国外的方案我为了简单起见,只列出特性比较鲜明的。没有写Exadata是因为它有点属于混合方案,把它简单定位在一个领域有点不太合适。而且国内可以和它具备相同类型的方案也没有,就先不提了。改天有空我再整理下我对于Exadata的一 些粗浅认识给大家来喷一下。 关于国内方案,我列出的是仅限于我知道的或是合作过的方案提供商,当然还有很多遗漏的。当然也有些我认为特色不鲜明没有什么核心技术的也就不提了。这里只列出他们的名字和专注领域类型。

大数据三两事之大数据不是只有Hadoop

当然,上图所列出的场景所针对的解决方案也不是唯一的。一些场景是多个方案都可以胜任的。

比如Mongo DB也可以做MAP/Reduce的工作。Hive能够为Hadoop体系提供SQL的接口等等

最后,再谈一下我对国内大数据解决方案提供商的一些总体感觉。当然,还是那句话,这些观点只是在我接触过的几个方案中得出的,并不代表国内总体的情况,我没有这么多的精力去了解,也没有这个能力。这些感觉仅供参考。

大数据三两事之大数据不是只有Hadoop

关于适宜客户群,我上面说的也只是我个人的一些建议。我觉得,这些国内解决方案的供应商,需要通过一些实际企业应用案例实施的磨练,以及一些合作伙伴的帮助,才能真正走向成熟,走向商用,去挑战那些国外的知名产品。我觉得从目前来看,技术不是问题,路线方向也没有什么错误。关键是 对自身的规划和技术走向商用,走向产品化流程化的运作能力。我也真心希望国内的那些大企业大公司能够给国内的这些有技术有想法的方案提供商一些机会,让他们能够积累经验,成长壮大。

共2页: [1]2 下一页
责编:毋小艺
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map