天涯:Hadoop能为用户提供更好的体验
从2009年开始,天涯就开始关注大数据方面的应用,业界有关大数据方面的种种技术也进入了天涯的视野,天涯在2010年就开始开展相应的工作,当时对多种技术路径都进行了尝试,包括企业级解决方案,最终选择了Hadoop。
天涯社区,是全球最著名的中文社区,一直以论坛形态承载着中国社会的“五彩缤纷”。在当前信息传播无边界的时代,天涯社区无疑是一个强大的舆论阵地,更是一个舆论品牌,有多少个重大的社会事件爆料,有多少次社会爱心的传递,有多少回火热的社会话题讨论,我想已经数不清了,它们从一个侧面让我们清晰的感觉到天涯社区在中国互联网界的地位与影响力。 伴随这种地位和影响力而来的则是巨大的访问量,和长期积累的海量数据,这对于天涯社区的IT系统与整体架构显然是一个巨大的挑战。当前,大数据作为IT领域最为引人瞩目的话题之一,天涯是否也在利用它来应对自身承载的访问压力呢?对此,我近日采访了天涯社区云计算与大数据部总监王庆波,就相关话题进行了深入探讨。 大数据的天涯 天涯社区成立于1999年,是中国最早的一批互联网企业,到现在为止已经发展了13年,目前注册用户7200万,日均UV超过1000万,日均PV达到1亿。王庆波介绍到,现在公司正在朝社交网络、旅游行业,以及无线互联网等领域,加大力度进行发展。 不过,这些新的拓展方向肯定需要一些新的应用开发与技术部署,对于天涯社区的IT,也就意味着更多的需求与挑战。王庆波表示,“天涯社区的整个IT需求,和很多高速发展的互联网公司是类似,应用种类繁多,上线更新频率快。因为需要快速尝试业务创新及产品创新,对我们的IT 提出了更快、更灵活的需求,需要我们底层的IT技术能够更好的来服务于产品以及服务。”而这其中,如何运用好不断积累的大数据是关键之一。 作为一个典型的论坛起家的社区平台,长期以来天涯的数据都是非结构化的,天涯用户很活跃产生的数据量很大,所以一直以来都面临着数据处理、数据挖掘的压力。王庆波表示,“我们真正着手来做这件事情是从2009年开始,公司为了提供更好、更智能的信息导航和用户数据分析,逐渐投入了很大力量来做数据挖掘方面的一些工作。” 在数据量方面,天涯作为老牌互联网企业,拥有过亿的用户覆盖,近百亿的论坛主帖及回复信息。“天涯每天过亿用户的访问行为,是天涯大数据的重要组成部分,也是我们大数据工作的一个最基本的数据来源。” 天涯的大数据主要由三部分组成:第一个是注册用户的数据库,第二个是用户每天生成的数据,如发帖、回帖、上传图片等等,第三个就是用户行为数据,论坛的日志数据等。 王庆波强调,“如果没有数据,谈大数据是比较空的,也就是说它没有一个真正的落脚点,没有大规模的数据各种工作都无法开展,而天涯有着海量的数据。这些海量数据,对于我们来说就是一个聚宝盆,也是尚未充分开采的资源,我们会针对这些数据做大量的分析和挖掘。” 所以,从天涯的角度来看云计算与大数据,王庆波认为它们是符合天涯发展的新技术及新理念,天涯现在的IT设备,目前已经是接近2000台(包括所有的服务器、存储、网络等硬件设备),而到2015年,预计设备数量会增长至5000台,它们将成为承载天涯未来的IT基础设施,这其中会建设云计算架构,也有很大的资源投入大数据。“显然我们对云计算和大数据有着很强烈的需求。”王庆波表示,“因为我们已经拥有海量数据,我们需要把这些数据用好,更好的服务于我们的用户。” 那么通过大数据分析,天涯又将获得多高的价值呢?对此,王庆波解释到,通过对天涯的这些数据的分析,第一我们能够更好的了解到天涯的用户群,就国内社会来说,他们是属于草根精英阶层。第二,我们根据这样的分析,在整个论坛内容的准备和组织上,会有很大的调整,我们在论坛中,会针对用户群特点进行有倾向性的内容投放。另外我们会根据每个用户,或者说根据用户本身的一些行为轨迹,了解他们喜欢哪类内容,从而做精准推荐及筛选。” 不过,对于数据的分析和利用其实并不是在今天提出的,很早以前就有“海量数据”的提法,所以当今IT圈里对于“大数据是一个噱头”的争论不绝于耳。在王庆波看来,“大数据”仍有其新意的地方。
责编:杨雪姣
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新文章
|