当前位置：首页 > 网络&安全 > 网络技术 > 正文

移动互联网信息挖掘的实现及应用浅析

来源：e-works

2013/10/22 14:27:46

大中小

目前，移动互联网在全球已经成为最具潜力的市场之一，随之而来的移动互联网领域的信息挖掘也显得日益重要。

分享到：新浪微博腾讯微博

本文关键字：互联网终端安全

2.2信息挖掘热点技术

2.2.1页面过滤

在一个网站中，存在很多如广告、导航页面、功能页面、提示页面等没有实际主题的页面，这些页面不应该参与到内容(热点内容)挖掘中来，否则将会给分析带来巨大的误差。因此，必须预先对这些页面进行过滤：实际上，过滤过程是一个知识积累的过程。因此，需要建立内容过滤的知识库，在知识库中保存了需要过滤内容的规则。如：广告页面直接过滤掉即可，而导航页面则不进行内容的文本切词等后续挖掘，但需要提取页面上的所有链接以获取下一级页面等。对于一个有效页面，依然需要对其进行内容清洗，去掉页面中的广告、格式等无效数据，仅保留主题内容。

2.2.2 文本切词

文本切词，就是对过滤和清洗后的主题内容迸行词组划分，获取i亥主题的所有关键词，即将一个文章的主题内容汉字序列切分成一个个单独的词。目前的分侧箅法可以分为三大类，分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。目前并不能断言哪种方法的准确率更高，因此对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。

a)字符串匹配分词：又被称为机械分词方法，是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。目前，该种方法已经存在多种较为成熟的算法和模型。应用较为广泛。

b)基于理解的分词：通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。由于汉语语言的复杂性，目前基于理解的分词系统还处住研究阶段。

c)基于统计的分词：这种方法只需对语料中的字组频度进行统计，不需要切分词典，但这种方法也有一定的局限性，会经常抽出一些出现频度高，但并不是词的常用字组等。

2.2.3 内容聚类

聚类分析是人们认识和探索事物内在联系的一种手段，其目的就是将一个数据集划分为若干聚类并使得同一个聚类内的数据对象具有较高的相似度。而不同聚类中的数据对象则是不相似的。

不同于内容(页面)分类的把各个贝面分成各个类别。内容聚类是将相同类别，相同内容或相似内容的页面聚合在一起。把其作为比较的对象，提供最终的内容展示基础。聚类分析是面向实际应用的技术，因此聚类的定义与待处理的数据类型有关。基于不同的模型构造思想，目前学术界提出了一系列很具体化的定义，如距离模型、质心模型、连接模型、密度模型、相似性模型等。以相似性模型为例。相同类别的页面，通过对内容标题或正文的分词，比较不同文章分词的相似度，通过聚类算法，满足条件的文章，被认为是聚合的。这里，数据(内容)对象之间的相似度由相似系数确定，而对象之间是否相似则必须通过预设的阈值来加以规定，相似系数大于阈值的对象之间是相似的，否则就是不相似的。

2.2.4 热点挖掘

热点挖掘除了对热点网站、热点内容、热点标题等通过聚类分析等进行挖掘，还需要对一些未知的热点信息和热点关联信息进行分析。

a)不确定网络热点主题发现。数据挖掘的魅力在于“发现”，“发现”即为事先不可预知的事物。在网络上，发现新的热点主题是系统实现的一项重要技术特征。“不确定网络热点主题发现”不事先定义主题，也不事先定义任何关键字，是一种无监督、无指导的自然聚类过程。通过无指导的自然聚类，得到一系列网络主题，然后提取代表词，呈现给用户，用户通过观察再赋予主题名。

b)热点关联分析。关联规则挖掘是数据挖掘中最活跃的研究方向之一，它反映了大量数据中项目之间有趣的关联或相关关系。通过应用数据挖掘技术中的关联分析技术，给出关键词之间的关联关系。计算任两个关键词存在关联的支持度和置信度，从而当某一关键词出现时可以预测到与其存在关联关系的其他关键词出现的概率。这点在敏感信息监控方面尤其重要，可以提前预判到敏感信息的出现，从而提前做出相应的处理措施。

共4页:上一页 [1] [2]3 [4] 下一页

责编：王雅京

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

移动互联网信息挖掘的实现及应用浅析

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。