当前位置：首页> 存储> 大数据> 正文

如何逃出大数据困境？开源或是关键手段

来源： it168作者：剑鱼

2012/4/19 10:21:24

大中小

繁琐和昂贵的专有企业搜索产品不能处理现有的结构化数据存储，并且不能以具有成本效益的方式来测量数据的规模和速度。现在我们的目的是找到一种能够对所有数据存储进行搜索、发现和分析(SDA)的解决方案，很多公司试图寻求开源方面的搜索功能应用程序，例如Apache Solr，以及大数据解决方案，例如Apache Hadoop，能够为他们提供及时和具有成本效益的对不断增长的数据总体的访问能力和洞察力。

分享到：新浪微博腾讯微博

本文关键字：存储大数据开源

实现SDA

那么，我们应该如何对结构化和非结构化数据存储进行及时的访问数据和执行分析呢?我们应该如何提问，以帮助我们找到所需要的具体信息，并从存在的隐藏的关系中获得知识呢?

这需要从以搜索为基础的应用程序和(通过类似商业智能的报告的)洞察力开始，基本上就是大数据和那些有疑问的实际用户发起的点到点实时数据访问的结合。关键字搜索加上发现功能(例如聚类、建议和分类)能够帮助用户更快地找到具体内容。

在试过可行的搜索技术中，首当其冲的就是对分析能力的需求，以满足两个领域。首先是客户为导向的结合了原始内容以及所有用户交互的学习方法(客户就是上帝，对吧?)。这种良性循环也是目前领先的面向消费者的网站(例如亚马逊、谷歌和Facebook)成功运作的原因，并且正在迅速成为一种必然，而不是那些希望在市场获得竞争力的企业值得拥有的能力。

想象一家每天面对2000万页面浏览量的大型电子商务公司，虽然其核心产品的搜索索引只有500万条目，当你将这500万条目与页面浏览量相乘时，你将面对一个非常惊人的大数据挑战。但是因为其现有技术的限制，该公司只能保持三个月数据的有效性。该公司可以通过访问其数据归档来对更长时间进行报告，但是对于实时搜索和分析，该公司只能依赖于过去的三个月中的数据。

为了让其更多的较旧的数据更容易访问和使用，该公司部署了一个大型Hadoop集群，位于其搜索引擎旁边。随后，他们使用Mahout和Apache Pig等工具来快速和具有成本效益地分析几个月的数据。现在，该公司不仅能够分析谁点击了什么页面，而且还能够分析点击页面的相关性等。而且他们还具有强大的关键字搜索以及发现和导航能力(用于向上销售和交叉销售)。这些功能结合在一起为该公司提供了更深入的洞察力，并且他们还能够将分析信息反馈回系统以进行不断改善。

将这些分析信息反馈回业务同样能够让企业通过利用关于员工是如何利用内容的信息来改善运营方式。企业现在能够确定特定主题的专家，看看谁正在使用何种类型的内容来完成工作等。同样地，这里也建立了一个良性循环，使用系统来提高系统的整体有效性，企业能够更好地进行组织，因为他们不仅理解了他们的数据(他们从传统商业智能和搜索中获取的数据)的价值，而且知道了其员工的价值。

共3页: 上一页 [1]2 [3] 下一页

责编：赵龙

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

如何逃出大数据困境？开源或是关键手段

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。