|
经验之谈之Hadoop的优势及应用大数据的流行让Hadoop在大数据处理人员中也得到了广泛应用,那么Hadoop对于大数据有哪些优势呢?又如何解决其中遇到的问题呢? 如何在Hadoop分析大量数据,Anoop指出,通常,在大数据/Hadoop的世界,一些问题可能并不复杂,并且解决方案也是直截了当的,但面临的挑战是数据量。在这种情况下需要不同的解决办法来解决问题。一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。所有这些任务都可以通过Hadoop中的多种工具和技术如MapReduce、Hive、Pig、Giraph和Mahout等来解决。这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。 例如,图和机器学习的问题可以通过使用一个Giraph框架被解决,而不是通过MapReduce任务解决,这样可以避免写复杂的算法。Giraph框架在解决图和机器学习问题时比MapReduce任务更加有用,因为一些问题可能需要运用迭代的步骤来解决。 Hadoop世界中的调试,调试在任何一个开发过程中都永远是个重要的过程。Hadoop环境中对于调试的需求和对Hadoop本身的需求一样重要。有一种说法是格式错误和意外的输入是很常见的,这将造成一切事务在一个较高的规模上中断。这也是处理大规模非结构化数据中的一个不幸的缺点。 虽然,单个任务被隔离并且给予了不同组的输入,但当跟踪各种事件时,它需要理解每个任务的状态。这可以通过多种可用的工具和技术来支持调试Hadoop任务的过程,从而实现目标。例如,为了避免任何工作失败,有一种方法可以跳过坏记录,并且可以使用MapReduce中的计数器来跟踪不良记录等。 易于控制的Hadoop系统,产品开发是一项重要的活动,系统维护也是同样重要的,它有助于决定产品的未来。在Hadoop中,环境设置、维护和环境监测、以及处理和调整MapReduce任务都非常需要从Hadoop系统中受益。为此Hadoop提供了很大的灵活性来控制整个系统,Hadoop的可在三种不同的模式中进行配置:即独立模式、伪分布式模式和完全分布式模式。 在Ganglia框架的帮助下,整个系统可以被监测并且能对节点的健康状态进行跟踪。另外,参数配置功能提供了对MapReduce的任务控制。Hadoop系统有很好的灵活性可以轻松搞定整个系统的级别控制。 可扩展的持久性。有很多选择可以处理海量的结构化和非结构化的数据,但是储存海量数据的可扩展性仍然是数据世界中的主要问题之一。Hadoop系统打算用Accumulo来缓解这个问题。Accumulo是被谷歌的BigTable的设计所启发的,并且建立在Hadoop、Zookeeper和Thrift的基础之上,同时它给Hadoop提供可扩展的、分布式的、且基于单元持久性的数据备份。Acumulo带来了一些BigTable设计之上的改进,以一种基于单元的访问控制和服务器端的编程机制来帮助在数据管理过程中修改不同点的键/值对。 Hadoop中的数据读取和写入发生在HDFS上。HDFS即Hadoop的分布式文件系统,并且是具有容错性的分布式文件系统。它在对进行文件流读取的大型文件进行了优化,而且和I/O吞吐量相比,更倾向于低延迟。有很多可以高效的从HDFS中读取和写入文件的方法,比如说API文件系统、MapReduce以及高级串行化库等。 责编:郑雄 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|