扫描二维码

订阅kaiyun体育官方人口 微信

天涯:Hadoop能为用户提供更好的体验

来源: 至顶网
2012/11/29 18:08:38
从2009年开始,天涯就开始关注大数据方面的应用,业界有关大数据方面的种种技术也进入了天涯的视野,天涯在2010年就开始开展相应的工作,当时对多种技术路径都进行了尝试,包括企业级解决方案,最终选择了Hadoop。



分享到: 新浪微博 腾讯微博
本文关键字: Hadoop 大数据 天涯

“我觉得本质上是说,是一个量变引起质变的一个演化:以前分析一个千万量级或者百万量级的数据,用一个数据库就可以很好的分析了,尤其是结构化的数据。”王庆波表示,“但是我们现在所看到的大数据,第一是规模特别大,比如天涯论坛数据是上百亿这样的数据量,这样的规模是原来传统数据的两个数量级。这会引起技术的差异,以及分析出来的结果差异。第二是我们要分析的深度,跟原来很不同,我们需要拿到更深入的分析结果。”

“目前我们会非常准确的分析出来某个人有什么样的爱好,”王庆波对于分析深度进行着重的解释,“以前我们可能只分析到某一类人的爱好,但现在能更精准的针对到个人,原来我们所做的数据分析更像统计,比如我们天涯的用户平均年龄是28岁,现在我们要更精准的说,这个人他喜欢的是股票、金融、时尚,而且他关注的时尚服装是哪一类型,要给他打一些标签,标注他是一个时尚的领导者还是一个跟随者。这些都需要更精准的数据分析和行为分析,而这样的精准分析,它所需要的技术和原来就会很不同,处理的过程也会有很多不同的地方。”

用Hadoop提供更好的体验

从2009年开始,天涯就开始关注大数据方面的应用,业界有关大数据方面的种种技术也进入了天涯的视野,天涯在2010年就开始开展相应的工作,当时对多种技术路径都进行了尝试,包括企业级解决方案,最终选择了Hadoop。

“当时,我们尝试过企业级的数据仓库或者是数据处理这样的一些技术,最后我们发现它们都不能够很好的满足于我们对于数据规模的需求”,王庆波表示,“后来,我们开始试用Hadoop,在2010年的时候,我们就正式开始使用Hadoop。”究其原因,王庆认为认为一是Hadoop本身是一个开放的平台,而且在国外有成功的经验,增加了天涯的信心,而且通过试用测试和分析,我们发现它确实是能够满足天涯的大部分需要的平台。

2010年初,天涯的Hadoop集群诞生,采用的是Apache官方版本,一开始只有不到10台服务器的规模,经过两年多的发展,今天的天涯Hadoop集群已经有几十台服务器的规模。服务器节点的类型是由天涯的业务需求决定,在服务器的选型方面则有明确的标准,王庆波表示,“我们更强调的是计算能力,然后排在第二的才是数据IO能力。”

2010年部署的Hadoop集群采用的是英特尔处理器平台(以4核心的型号为主),每个节点配8-16GB内存,采用2U机型以保证较大的存储扩展空间,每个DataNode配4-8TB的本地存储。在后期的采购中,也都以计算能力为优先选择标准,日后将会陆续加入更多至强E5系列的平台。可以说,出色的计算性能是天涯社区选择英特尔平台服务器搭建Hadoop集群的根本原因。

目前,天涯Hadoop集群的主要应用就是做天涯的用户行为分析和数据分析,并将与前面谈到的云平台相结合,为天涯的业务创新提供坚实的基础。

“实际上,云计算和大数据上都是我们重点布局的技术领域,也是我们正在实践中的领域,我们觉得这两项技术,会给天涯未来的发展,尤其是以技术为驱动的发展,提供一个坚强的后盾,会对我们未来创新型业务的发展,起到很好的帮助。”王庆波表示,“我们未来的IT系统,采用云计算和大数据这样的环境之后,会非常灵活、可靠和高效率,使得我们产品研发周期变短与我们业务创新的结合速度变快。”借助于Hadoop集群,天涯可以更快速、更高效的分析用户行为,从而使为用户提供合理化,甚至是即时的定制化服务,这无疑将大大提升天涯的用户体验。

而当谈到未来云与大数据的结合时,王庆波对当前的虚拟化Hadoop集群的发展趋势表示认同,“云计算如果发生了,那么虚拟化就会被广泛的采纳,如果想提供这种分析与计算的服务,它必然是基于虚拟化的环境”,他表示,“所以随着云计算和大数据的蓬勃发展,两者融合在一起是必然的路径。因为你要做数据分析,你就需要计算资源,其实现的手段通常虚拟化,所以这两者在需求足够强烈的时候,一定会融合在一起。”不过,这也对于系统平台的虚拟化能力有着更高要求。

在采访的最后,王庆波对于那些准备采用Hadoop的朋友谈了谈自己的经验的和建议。

“首先一定是要以业务为导向,不能够因为想追求新技术,而使用这样的一个Hadoop数据处理环境。应该首先评估一下自己的业务量和处理需求,根据业务来决定是否使用Hadoop和怎么使用它。”王庆波强调,“其次,如果你已经选择使用Hadoop,但还不是很熟的话,建议从基本的一些功能开始,把最核心的一些业务做出来,而不要被Hadoop整个生态系统所纠缠,Hadoop整个工具链条还是比较长的,但从最基本的功能用起,就会解决掉80%的业务需求。在有余力的情况下,再去探索一些更加先进的功能。

共2页: [1]2 下一页
责编:杨雪姣
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map