|
大数据中非结构化数据的挖掘:文本
有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如浏览器的类型信息、推荐来源,虽然取值为文本,但取值都有规律,这些数据在数据库中更多的是作为外键(FK)关联到维度表,因此都不算严格意义上的非结构化数据。
三、 非结构化文本数据的应用场景在哪? 通常情况下,非结构化的数据可以跟结构化的数据一样,作为分析的维度应用到各种报表或OLAP中;但这仅仅能发挥其一小部分作用,原因是只靠固定维度的常规分析难以挖掘非结构化数据中隐含的知识点,因此我们需要借用数据挖掘的相关技术。 以搜索词为例,站内搜索词基本上每个工具都会监测 ,但是搜索词的常规应用场景大多集中在以下几种: 对运营体系来讲,看下最近用户热搜了哪些词,哪些词有什么样的变化趋势,并结合转化效果来指导搜索词运营; 对采销商品体系来讲,挖掘下购买某些品类的用户通常会通过哪些词进行搜索,以此来提高在这些展现结果页的排名以获得更好的展示和点击,创造售卖机会; 对搜索产品开发而言,用户搜索后的结果数、排序功能、筛选等功能怎样,引发了用户的哪些连环反应,为产品功能优化提供参考; 对SEO和SEM来讲,站内的搜索词可以作为站外SEM选词、匹配规则调整和站内页面SEO优化的参考… 这些场景固然有用且实用,但其中有一个问题,除了SEO和SEM对于关键字的选择和拓展上,可以采用全量的方式应用以外,其他的业务体系都无法直接拿来复用。换句话说,SEO和SEM可以把所有关键字拿来用,但其他业务部门只能用到其中一部分,原因是大量关键词从单纯从字面上无法挖掘深层价值。 举个例子,比如家电采销需要过滤出某段时间家电相关搜索词,通过搜索某些关键词词根,然后用正则或模糊匹配来搜索结果并作进一步分析,但总有很大一部分次是业务无法提取的价值所在,比如: “三星”和“note2”,没有经验的人是无法知晓二者是如何关的? 搜索“三星”的,你并不知道他想找的是三星手机还是三星电视; 我在一次访问中搜索了n多词,到底想找什么还是随便看看? 作为家电品类的目标客户,通常会搜索哪些词? 隐藏用户搜索词中的特定需求有哪些--比如超薄、红色还是商务特点?
责编:王雅京
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|