当前位置：首页> 存储> 大数据> 正文

大数据引发限制 Hadoop如何走得更远

来源： IT专家网

2012/4/28 10:29:45

大中小

存储技术已经发展和成熟起来，并开始在许多数据中心处于近乎商品的地位。然而，今天的企业面临着存储技术的不断变化带来的诸多问题一个例子是推动大数据分析，一项给大型数据集带来商业智能BI功能的举措。

分享到：新浪微博腾讯微博

本文关键字： Hadoop 大数据存储管理

Hadoop平台旨在解决海量数据引起的问题，尤其是那些混合了复杂、非结构化、结构化信息的数据，这些数据的结构导致其不适合存储在表中。 Hadoop在需要支持深度和计算广泛的分析比如集群和定位的情况下运作良好。那么Hadoop对那些寻求充分利用大数据的IT专业人员意味着什么?简单的回答是Hadoop解决了与大数据相关联的最常见的问题：高效的存储和访问海量数据。

Hadoop的内在设计允许其作为一个能够在大量不共享任何内存和磁盘的计算机之间工作的平台运行。考虑到这一点，就能很容易看到Hadoop如何提供额外的价值——网络管理员可以简单的购买许多商品服务器，将它们放在机架上，然后在每台服务器上运行Hadoop 软件。

更何况，Hadoop有助于减少大型数据集相关联的管理开销。在操作上，一旦企业的数据加载到了Hadoop平台，软件就会把数据分解成可管理的片段，然后自动将这些数据分配给不同的服务器。数据天然的分布式性质意味着从单一的服务器访问数据是不可能的。Hadoop跟踪数据驻留的位置，并通过创建多个存储副本进一步保护这些信息。这样，系统的伸缩性增强了：如果某个服务器脱机或者失败了，数据可以自动复制已知的正常副本。

Hadoop如何走得更远?

Hadoop进一步分多个步骤处理数据。例如，限制关联传统的、集中式的数据库系统，该数据库系统可能包括了连接到具有多个处理器的服务器级系统的大型磁盘驱动器。在这种情况下，由于磁盘的性能限制，数据分析是有限的，并且，最终还要忍受可购买的处理器数量。

在部署了Hadoop后，集群中的每个服务器都可以通过Hadoop传播分布在集群中的数据的功能参与数据的处理过程。换句话说，一个索引作业向集群中的每个服务器发送代码，然后每个服务器在属于自己的一块数据上进行相关操作，随后处理结果作为一个整体交付。有了Hadoop，过程被视为 MapReduce，在MapReduce中，代码和进程被映射到了所有的服务器上而操作结果被减少到了单个数据集上。

Hadoop之所以能够处理海量数据就是因为这个过程。Hadoop传播数据并且能够利用所有的可用集群处理器并行工作来处理复杂计算问题。

责编：赵龙

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

大数据引发限制 Hadoop如何走得更远

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。