直面大数据 存储基础设施应该如何部署

来源: it168作者:剑鱼
2012/4/19 10:14:06
最近,大家都在讨论大数据分析及其带来的商业情报的价值,但是在企业从这些数据中挖掘出有效信息之前,他们必须弄清楚该如何存储这些大数据。管理大数据(PB级或者更大的数据)与管理传统大型数据集完全不同,在线照片分享平台Shutterfly公司就非常清楚这一点。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 存储 RAID
采用擦除代码技术的下一代存储
里德-所罗门纠删码最初作为前向纠错码(Forward Error Correction, FEC)用于不可靠通道的数据传输,例如外层空间探测的数据传输。这项技术还被用于CD和DVD来处理光盘上的故障,例如灰尘和划痕。一些存储供应商已经开始将纠删码纳入他们的解决方案中。使用纠删码,数据可以被分解成几块,单块分解数据是无用的,然后它们被分散到不同磁盘驱动器或者 服务器。在任何使用,这些数据都可以完全重组,即使有些数据块因为磁盘故障已经丢失。换句话说,你不需要创建多个数据副本,单个数据就可以确保数据的完整性和可用性。
基于纠删码的解决方案的早期供应商之一是Cleversafe公司,他们添加了位置信息来创建其所谓的分散编码,让用户可以在不同位置(例如多个数据中心)存储数据块或者说数据片。
每个数据块就其自身而言是无用的,这样能够确保隐私性和安全性。因为信息分散技术使用单一数据来确保数据完整性和可用性,而不是像RAID一样使用多个副本,公司可以节省多达90%的存储成本。
“当你将试图重组数据时,你并不一定需要提供所有数据块,”Cleversafe公司产品策略、市场营销和客户解决方案副总裁Russ Kennedy表示,“你生成的数据块的数量,我们称之为宽度,我们将重组数据需要的最低数量称之为门槛。你生成的数据块的数量和重组需要的数量之间的差异决定了其可靠性。同时,即使你丢失节点和驱动器,你仍然能够得到原来形式的数据。通过RAID你能够获取的最高可靠性是双奇偶校验,你可以丢失两个驱动器,而通过我们的解决方案,你最多可以丢失六个。”
纠删码也是一个基于 软件的技术,这意味着它可以与商品硬件使用,更大程度地降低了成本。
建立下一代存储基础设施
“在确定正确的技术后,我们看了很多这个领域提供解决方案的供应商,”Day表示,“我们希望自己来建立,但是如果我们能够找到一个满足我们的要求且具备可靠系统的公司,那事情就更好办了。”
Shutterfly将四家供应商带到其实验室进行评估,为其数据中心需要的存储设备建立原型,Day表示,他希望看到性能、可用性、容错率和管理方面的评估信息。
“我们有一个专门管理照片存档的工作人员,”他表示,“2010年我们遇到的最大问题之一就是照片存档的不断增加,使我们不得不壮大员工队伍,但这增加了我们的开支。”
Day表示经过评估,Cleversafe更加适合Shutterfly,这主要是因为该公司愿意与Shutterfly配合根据Shutterfly的需求来调整其解决方案。这两家公司开始经历了一些列的概念证明阶段,包括在Shutterfly实验室的负载和性能测试。在Shutterfly对操作和性能感到满意后,Cleversafe在生产中放置了一个并行存储基础设施,直接将所有Shutterfly流量的副本导向Cleversafe。
“每张上传的照片都被写入我们原有的基础设施和Cleversafe的基础设施,”Day表示,“我们运行了六个月,包括节假日。”
节假日是Shutterfly的高峰期,因为用户拍了很多照片。
Shutterfly在2011年开始使用Cleversafe的存储解决方案,并一直将其作为主要图像库。
责编:赵龙
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map