如何处理非结构化数据

来源:机房360  
2013/1/24 14:07:03
根据IT调研公司IDC的预测,到2015年,全球的数字数据量大约会达到7.9 zettabytes。我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。

本文关键字: 非结构化 数据

根据IT调研公司IDC的预测,到2015年,全球的数字数据量大约会达到7.9 zettabytes。我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的高潮将至。”

如何构建非结构化数据

我们中的许多人真的是才刚刚开始与非结构化数据打交道,还寻找着手的方式,并试图找出如何最好地处理这一切。其实,我们只要问自己,尽管以前的许多添加结构化数据的尝试都是令人失望的,但如果我们甚至懒得去尝试使用它,那我们失败的次数会更多。毕竟,仅仅靠处理和自动结构化流程数据还是不够的!

在此,我希望与您分享一些您可以用来处理非结构化数据的方法:

云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。

开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。

将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的分裂分析角度。

将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。

清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。考虑检查Saleforce Data.com的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。Saleforce Data.com上清理数据的成本可能会被分摊,而企业清理数据也可以在Salesforce上共享整个Data.com的仓库云。

使用非结构化数据不会很容易,但是这一工作将是必要的。您关于使用非结构化数据有什么建议?欢迎与我们分享。

责编:赵龙
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map