如何逃出大数据困境?开源或是关键手段

来源: it168作者:剑鱼
2012/4/19 10:21:24
繁琐和昂贵的专有企业搜索产品不能处理现有的结构化数据存储,并且不能以具有成本效益的方式来测量数据的规模和速度。现在我们的目的是找到一种能够对所有数据存储进行搜索、发现和分析(SDA)的解决方案,很多公司试图寻求开源方面的搜索功能应用程序,例如Apache Solr,以及大数据解决方案,例如Apache Hadoop,能够为他们提供及时和具有成本效益的对不断增长的数据总体的访问能力和洞察力。

分享到: 新浪微博 腾讯微博
本文关键字: 存储 大数据 开源

实现SDA

那么,我们应该如何对结构化和非结构化数据存储进行及时的访问数据和执行分析呢?我们应该如何提问,以帮助我们找到所需要的具体信息,并从存在的隐藏的关系中获得知识呢?

这需要从以搜索为基础的应用程序和(通过类似商业智能的报告的)洞察力开始,基本上就是大数据和那些有疑问的实际用户发起的点到点实时数据访问的结合。关键字搜索加上发现功能(例如聚类、建议和分类)能够帮助用户更快地找到具体内容。

在试过可行的搜索技术中,首当其冲的就是对分析能力的需求,以满足两个领域。首先是客户为导向的结合了原始内容以及所有用户交互的学习方法(客户就是上帝,对吧?)。这种良性循环也是目前领先的面向消费者的网站(例如亚马逊、谷歌和Facebook)成功运作的原因,并且正在迅速成为一种必然,而不是那些希望在市场获得竞争力的企业值得拥有的能力。

想象一家每天面对2000万页面浏览量的大型电子商务公司,虽然其核心产品的搜索索引只有500万条目,当你将这500万条目与页面浏览量相乘时,你将面对一个非常惊人的大数据挑战。但是因为其现有技术的限制,该公司只能保持三个月数据的有效性。该公司可以通过访问其数据归档来对更长时间进行报告,但是对于实时搜索和分析,该公司只能依赖于过去的三个月中的数据。

为了让其更多的较旧的数据更容易访问和使用,该公司部署了一个大型Hadoop集群,位于其搜索引擎旁边。随后,他们使用Mahout和Apache Pig等工具来快速和具有成本效益地分析几个月的数据。现在,该公司不仅能够分析谁点击了什么页面,而且还能够分析点击页面的相关性等。而且他们还具有强大的关键字搜索以及发现和导航能力(用于向上销售和交叉销售)。这些功能结合在一起为该公司提供了更深入的洞察力,并且他们还能够将分析信息反馈回系统以进行不断改善。

将这些分析信息反馈回业务同样能够让企业通过利用关于员工是如何利用内容的信息来改善运营方式。企业现在能够确定特定主题的专家,看看谁正在使用何种类型的内容来完成工作等。同样地,这里也建立了一个良性循环,使用系统来提高系统的整体有效性,企业能够更好地进行组织,因为他们不仅理解了他们的数据(他们从传统商业智能和搜索中获取的数据)的价值,而且知道了其员工的价值。

责编:赵龙
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map