|
大数据中非结构化数据的挖掘:文本
有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如浏览器的类型信息、推荐来源,虽然取值为文本,但取值都有规律,这些数据在数据库中更多的是作为外键(FK)关联到维度表,因此都不算严格意义上的非结构化数据。
一、 点击流中的非结构化文本数据都有哪些? 首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的数据,包括原始LOG日志以及已经被结构化入库中的部分数据,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data.当然,有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如浏览器的类型信息、推荐来源,虽然取值为文本,但取值都有规律,这些数据在数据库中更多的是作为外键(FK)关联到维度表,因此都不算严格意义上的非结构化数据。 真正的非结构化文本数据,包括: 搜索词:我们永远无法准确定义用户的搜索词都有哪些; 完整URL地址:尤其是含有特定监测Tag的地址; 特定监测标签:通常鉴于以URL Tag形式进行监测的情形; 页面名称:名称的规范性取决于系统配置信息; 用户自定义标签:比如用户对自身的评价标签--伟岸、高富帅等; 文章特定信息:如文章摘要、关键字等,跟用户一样,文章信息也是因文章而已; 用户评论、咨询内容:绝对的非结构化段落; 唯一设备号:如IMEI、MAC等(这部分通常会作为关联主键和唯一识别标示,不会作为规则提取的字段); 这些信息的特点是:①取值通常是文本或字符串,②长度不一致,单值结果的长度可能是1个字节甚至是1000个字节不等,③无明确的值域范围。 二、 这些数据都是从哪来的? 这些数据通常都是用户自定义的,另外也包括由于系统产生或收集的非结构化数据本身。 自定义非结构化文本数据。这些信息通常都是在工具中通常都是自定义的维度获取,比如webtrends中的metea、Adobe Analytics中自定义Prop和eVar、UA中的Dimension等,如Adobe Analytics中的Prop的字段是以varchar(100)的格式定义的,这意味着如果需要收集数据的单个结果长度超过100个字节,结果将被截断;而eVar的字段格式与Prop相同,但程度更长,是255,所以从底层数据支持的角度考虑,如果在自定义维度时,在不考虑路径应用的情况下尽量使用eVar来定义。 系统获取的非结构化文本数据。比如通过Adobe分类规则生成器、处理规则或JS自动复制变量值的形式都会产生。
责编:王雅京
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|