只要谈论大数据,就一定会提到Hadoop。Apache Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。Hadoop的版本除了社区的Apache hadoop、cloudera外,各大IT巨头EMC、IBM、英特尔、甲骨文等为了给各自的大数据战略铺路,与Hadoop都有合作计划和相应的产品推出。

  现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据。这种对数据的要求限制了可处理的数据种类,同时这种惯性所带的缺点还影响到数据仓库在面对海量异构数据时对于敏捷的探索。这通常意味着有价值的数据源在组织内从未被挖掘。这就是Hadoop与传统数据处理方式最大的不同。

Hadoop概述

Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。

虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解。人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。 全文>>

浅析Hadoop两大核心组件的体系结构
HDFS和MapReduce是Hadoop的两大核心。主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。 更多>>

分布式文件系统HDFS简介
Hadoop 分布式文件系统(HDFS)提供了一个高度容错性和高吞吐量的海量数据存储解决方案。更多>>

Hadoop应用现状和发展趋势
Hadoop目前已经取得了非常突出的成绩。,Hadoop的应用也会从互联网领域向电信、电子商务、银行、生物制药等领域拓展。更多>>

Hadoop发展历史

Hadoop的源头是Apache Nutch,该项目开始于2002年,是Apache Lucene 的子项目之一。2004年,Google在“操作系统设计与实现”(OSDI,Operating System Design and Implementation)会议上公开发表了题为“MapReduce:Simplified Data Processing on Large Clusters”(MapReduce:简化大规模集群上的数据处理)的论文,之后受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(Nutch Distributed File System)结合,以支持Nutch引擎的主要算法。

由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为了一套完整而独立的软件,起名为Hadoop。到了2008年年初,Hadoop已成为 Apache的顶级项目,它被包括Yahoo!在内的很多互联网公司所采用。现在,Hadoop已经发展成为包含HDFS、MapReduce、Pig、ZooKeeper等子项目的集合,用于分布式计算。

Hadoop:撬动大数据

当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。

 

数据抓取系统 - Nutch

海量数据怎么存,当然是用分布式文件系统 - HDFS

让你的数据可见 - drilldown, Intellicus
用高级语言管理你的任务流 – oozie, Cascading


全文>>

Hadoop:从初出茅庐的小象变身行业巨人
如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善。最明显的迹象就是五大数据库管理软件供应商EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的怀抱。 更多>>

大数据大发展 Hadoop成为关键部件
Hadoop作为一种处理大数据的机制已经获得了越来越多的支持。由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发自有的技术,以对Hadoop堆栈进行补充。 更多>>

如何为Hadoop集群选择合适的硬件?
开始使用Hadoop时的第一个问题是如何为他们的Hadoop集群选择合适的硬件。这里介绍Hadoop管理员需要考虑的各种因素。虽然Hadoop设计在工业标准硬件上运行,建议一个理想的集群配置不只是提供硬件规格列表那么容易。更多>>

管理Hadoop集群的5大工具
当你利用Hadoop进行大数据分析和处理时,首先你需要确保配置、部署和管理集群。这个即不容易也没有什么乐趣,但却受到了开发者们的钟爱。本文提供了5款工具帮助你实现。 更多>>

关于大数据的言论

企业对大数据的认知度很重要
IDC周震刚:中国大数据市场的十大预测
中国联通:大数据解决上网记录查询难题

十大典型应用展示Hadoop之美

谈到Hadoop应用,如果仅将目光集中在为搜索引擎提供动力或者为广告服提供用户行为分析的平台上,那么显然有所局限。在Hadoop最新版本的发布会上,Cloudera COO Kirk Dunn和业内一些专家指出了Hadoop在不同领域的应用案例。更多>>
Hadoop为80%左右的全球在线旅游预定服务。利用Hadoop分析可能预示欺骗性的用户交易和异常数据。
为美国70%的智能手机提供Hadoop支持。美国超过1000万在线商家使用Hadoop服务。
可以预测石油储备状况。使用Hadoop对病人的回答做语义分析。雪佛龙利用Hadoop来支持其节能系统,顾客们按照系统提示节能的同时也节省了不少钱。
用Hadoop来分析服务器数据,处理恶意软件和网络攻击数据。去年Trust 就用hadoop为各种IP评定分数,然后各大公司就可以决定是否接受那些恶意IP的来访。
 

Hadoop是唯一吗?8个代替HDFS的方案

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点。更多>>

Hadoop的应用大户

探秘淘宝Hadoop集群

为什么选择Hadoop,当时能够达到商用水准的分布式计算技术也只有Hadoop。淘宝Hadoop集群拥有2860个节点,清一色基于英特尔处理器的x86服务器,其总存储容量50PB,为淘宝网的日常运营做出了关键支撑。

Hadoop在百度的应用

百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器(它们的计算能力相当于200多台新机器),不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB/天。

天涯:Hadoop能为用户提供更好的体验
从2009年开始,天涯就开始关注大数据方面的应用,业界有关大数据方面的种种技术也进入了天涯的视野,天涯在2010年就开始开展相应的工作,当时对多种技术路径都进行了尝试,包括企业级解决方案,最终选择了Hadoop。
Hadoop在Facebook的应用
现在Facebook使用Hadoop遇到的挑战有:服务质量和隔离性方面,较大的任务会影响集群性能;安全性方面,如果软件漏洞导致NameNode事务日志崩溃该如何处理;

微博讨论

Baidu
map