大数据中非结构化数据的挖掘:文本

来源: 数据研究与商业应用   
2014/3/14 11:55:32
有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如浏览器的类型信息、推荐来源,虽然取值为文本,但取值都有规律,这些数据在数据库中更多的是作为外键(FK)关联到维度表,因此都不算严格意义上的非结构化数据。

本文关键字: 大数据 非结构化 文本

一、 点击流中的非结构化文本数据都有哪些?

首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的数据,包括原始LOG日志以及已经被结构化入库中的部分数据,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data.当然,有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如浏览器的类型信息、推荐来源,虽然取值为文本,但取值都有规律,这些数据在数据库中更多的是作为外键(FK)关联到维度表,因此都不算严格意义上的非结构化数据。 真正的非结构化文本数据,包括:

搜索词:我们永远无法准确定义用户的搜索词都有哪些;

完整URL地址:尤其是含有特定监测Tag的地址;

特定监测标签:通常鉴于以URL Tag形式进行监测的情形;

页面名称:名称的规范性取决于系统配置信息;

用户自定义标签:比如用户对自身的评价标签--伟岸、高富帅等;

文章特定信息:如文章摘要、关键字等,跟用户一样,文章信息也是因文章而已;

用户评论、咨询内容:绝对的非结构化段落;

唯一设备号:如IMEI、MAC等(这部分通常会作为关联主键和唯一识别标示,不会作为规则提取的字段);

这些信息的特点是:①取值通常是文本或字符串,②长度不一致,单值结果的长度可能是1个字节甚至是1000个字节不等,③无明确的值域范围。

二、 这些数据都是从哪来的?

这些数据通常都是用户自定义的,另外也包括由于系统产生或收集的非结构化数据本身。

自定义非结构化文本数据。这些信息通常都是在工具中通常都是自定义的维度获取,比如webtrends中的metea、Adobe Analytics中自定义Prop和eVar、UA中的Dimension等,如Adobe Analytics中的Prop的字段是以varchar(100)的格式定义的,这意味着如果需要收集数据的单个结果长度超过100个字节,结果将被截断;而eVar的字段格式与Prop相同,但程度更长,是255,所以从底层数据支持的角度考虑,如果在自定义维度时,在不考虑路径应用的情况下尽量使用eVar来定义。

系统获取的非结构化文本数据。比如通过Adobe分类规则生成器、处理规则或JS自动复制变量值的形式都会产生。

共2页: 上一页1 [2]
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map