当前位置：首页> 网络&安全> 网安资讯> 正文

基于Hadoop的微博信息挖掘

来源：开云全站app

2013/1/5 11:17:48

大中小

通过对微博信息的挖掘，可以获取相关的商业信息，人际关系信息，热点新闻，趋势信息等内容，以及对历史事件进行相关的分析总结。

分享到：新浪微博腾讯微博

本文关键字： Hadoop 微博信息

一、引言
微博即微型博客（micro-blogs），是一种允许用户及时更新并可以公开发布简短文本（通常在140字左右）的博客形式。微博的快速发展使得任何人都可以成为微博用户，成为一个区分于传统媒体的“自媒体”。这种用户驱动的信息创造模式产生信息的速度快，信息量在逐级的传播中变得海量。对微博信息进行挖掘和分析，关注其中的社会热点话题，可探寻其规律并预测动向，分析热点事件的舆论趋势，特别是微博信息传播的实时性可以应用于突发性社会事件和自然事件的监测和预警。

二、国内外研究现状

通过对微博信息的挖掘，可以获取相关的商业信息，人际关系信息，热点新闻，趋势信息等内容，以及对历史事件进行相关的分析总结。

进行微博信息挖掘，需要处理海量的用户信息和微博内容。把Hadoop应用于数据挖掘领域，国内外学者也有所探索，文献[2]提出了一种基于数据分割技术和遗传算法的混合算法DS-PGA，该算法结合了数据分割技术的分布式处理和遗传算法的全局搜索最优解的优点，使得改进后的算法更适合在分布式计算环境中执行。文献[3]针对云计算环境下的关联规则挖掘算法展开研究，对Apriori算法进行了改进，给出了改进的算法在Hadoop中的Map/Reduce编程模型上的执行流程；通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。

从国内外研究现状可以看出，对微博信息的挖掘还处于起步阶段，本文将结合微博数据挖掘的实际需求，利用分布式和虚拟化技术，设计并实现基于Hadoop的微博信息挖掘系统，展示挖掘的相关信息。

三、基于Hadoop微博信息挖掘系统设计

Hadoop主要由HDFS、MapReduce和Hbase组成。它是一个分布式系统基础架构。Hadoop的特性使得Hadoop可以用于处理海量数据的分析和挖掘处理。

微博信息挖掘系统设计分为四个模块：数据获取，数据存储，数据挖掘和数据展示，系统架构设计如图1所示，本节将讨论各个模块需是实现的功能及其技术路线。

图1 基于Hadoop的微博信息挖掘系统框架结构

（一）数据获取

数据获取指从微博平台中获取微博信息，包含用户信息，微博内容等，获取方式包含两种：API方式和Web爬虫方式。API方式指通过调用各微博服务提供商提供的接口获取微博信息，而Web爬虫方式指通过访问微博平台的WEB页面，解析页面相关内容，获取所需信息。

系统通过Web爬虫的方式获取用户的微博ID，然后再使用微博服务提供商提供的API进一步获取用户的详细信息和微博内容，这种做的优点是通过Web爬虫的方式过滤掉了非认证用户，同时尽可能的减少了API调用次数，将有限的API调用资源用于获取用户的微博内容。

数据获取模块的架构设计如下：

图2 数据获取模块的架构设计

责编：孔维维

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

基于Hadoop的微博信息挖掘

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。