应用实战:部署重复数据删除的技巧

来源: 比特网
2011/9/27 11:44:11
下面所列出的一些经验和建议,将会帮助存储经理们在部署重复数据删除系统的时候快速扫清绊脚石。


分享到: 新浪微博 腾讯微博
本文关键字: 重复数据删除

了解并对当前的重复数据删除算法和理论进行分类,只是一个存储经理在部署重复数据删除系统任务中的第一步。下面所列出的一些经验和建议,将会帮助存储经理们在部署重复数据删除系统的时候快速扫清绊脚石。

1.了解你的数据。“人们一般都不会掌握他们的数据变化情况以及数据保留周期。”Wunder说道。掌握了这些情况是非常关键的,它可以让你初步估计你将会得到的去重比率,以及你到底需要多少磁盘容量。“我们一般以60天为一个数据保留周期以节省成本。”他补充说道。

“厂商一般都会帮你来估算你需要的存储空间容量,而且他们对此比较专业,做的不错。”ESG的Whitehouse说。比如,Adventist Health的Aubry曾经请求Data Domain以及ExaGrid对某个重复数据删除方案做容量估算。“我们告诉他们说我们了解我们的数据,同时也请他们来看一看我们的数据以及我们当时正在做的事情。然后,他们各自给了他们的估算结果,两家的结果是差不多的。”Aubry说。这件事情发生在两年前,如今看来,估算结果依然相当精确。

2.了解你的应用系统。不是每个重复数据删除产品对待不同的应用系统数据都一视同仁。对于一些特殊的数据结构、不寻常的数据格式,或者一些应用程序存储数据的方式以及可变长度的数据,这些均会影响一款重复数据删除产品的工作方式以及去重比率。

Philadelphia law firm Duane Morris LLP公司使用了Avamar Technologies的Axiom(Avamar如今已被EMC收购)作为重复数据删除系统。他们惊奇的发现:“这套系统对某些应用程序数据确实是管用的,但是它却对Microsoft Exchange一点用也没有。” Duane Morris的CIOJohn Sroka说道。

对于这家公司的600万个Word文档,Avamar应对起来没有任何问题,但是当它遇到Exchange的数据之后,“去重系统竟然每次都会认为Exchange的数据是全新的,没有一点冗余,也不会进行去重操作。” 他在报告中这样写道。(最新版的Avamar已经解决了这个问题)。然而,Duane Morris却不想大动干戈的来升级Avamar。“我们已经转而使用Double-Take的产品了(Double-Take Software公司产品),这个产品带有实时远程复制功能,这一直都是我们想要的。”Sroka说。

3.对于压缩过的数据,不要对其进行去重操作。“对已经被压缩过的数据再进行去重操作就等于浪费时间。我们曾经尝试过,但是得到了一些非常糟糕的比率,”Thomas Weisel Partners LLC(一家San Francisco投资的银行)的CIO Kevin Fiore说到。这家公司作为Data Domain的用户已经两年了,他们对未压缩过的数据进行去重之后,达到了35:1的比率。对于一些数据程序和其他在存储数据时对数据进行压缩处理的程序所生成的数据来讲,去重比率降低到了个位数。

当对混合应用程序数据进行去重操作时,Thomas Weisel曾经得到过的去重比率范围在12:1到16:1之间。对于那些不打算保留很长时间的数据来讲,根本不值得对其进行去重操作。除非数据保留周期足够长,以至于需要多次被备份,否则的话,去重带来的好处微乎其微。

4.不要对那种单一盒子的方案抱有幻想。“早期时候,有些公司倾向于使用一种快速便捷的单设备解决方案。但是后来他们发现需要扩展系统容量的时候,他们不得不在系统中引入越来越多的设备节点。从某种角度来看,他们已经无法控制这种头疼的事情了。”ESG的Whitehouse说道。单一盒子去重设备确实部署起来很便捷,但是除非这种设备支持某种方式的全局重复数据删除方案,否则的话,公司就会发现随着被引入的单设备节点越来越多,他们将不得不管理这些去重孤岛了。这种情况下,公司也不会享受到全局重复数据删除所带来的好处了。

Magnum Semiconductor的Wunder迅速证明了这个陷阱。“我们研究过Data Domain,但是我们发现它无法扩展。某些情况下我们需要多台设备节点,每个都售价80,000美元。”他说。

5.一定要在大量实际的数据基础上测试重复数据删除产品。“这种测试是极其耗费时间的,正因如此,不少公司都略过了这一步。通常情况下,公司都只对很小一部分数据进行测试,但是其结果与对大量数据测试之后的结果是没法比的。”GlassHouse Technologies的Preston说道。理想情况下,你应当部署对应产品的Demo版本,然后用它对实际数据进行去重,周期维持在一个月左右,然后你再决定是否采用它。然而,多数厂商不会配合,除非它们感觉不这样做的话很可能丢单。

Adventist Health比较幸运。它们在经过与Data Domain和EsaGrid的工程师们漫长的在线会议之后才最终做了决定。在这些会议以及它们自己内部分析的基础上,它们最终决定选择ExaGrid。当这个决定做出之后,Adventist Health出于礼貌将结果通知了Data Domain。然而,Data Domain似乎并没有放弃,竟然给Adventist Health提供了一台测试设备。

“当我感觉到我可能做出了错误的决定的时候,我有些紧张。我们将两家厂商的产品都用了起来,打算最后淘汰一个。”Aubry说到。ExaGrid的设备已经被安装在了Adventist Health的外部路由网络中,Data Domain的设备则被安装于内网,内网中还连接了介质服务器

“当时我估计Data Domain会胜出,因为它被部署在了内网中,”他说。通过对端到端过程所耗费的时间测测量,ExaGrid快出了20%。这个结果令Aubry感到如释重负,因为他已经向上级提交购买ExaGrid的请求了。

正像任何用户购买任何产品时的心态一样,在面对重复数据删除产品的时候,也要有如下的心态:要明确知道你在购买什么产品,先试后买,你购买的过程可能有长有短,一款产品过去的性能表现不代表它将来可能达到的表现,一种型号或尺寸不见得可以满足所有要求,等等。幸好,这是一个充满竞争的市场,价格也是可以商榷的。451 公司的调查结果显示,2009年重复数据删除市场份额已经达到了十亿美元,而三年前,市场份额却只有一亿美元,可见重复数据删除技术的火热程度。存储经理最终应该可以以一个充满竞争力的价格购买到可以满足他们需求的最合适的产品。

责编:杨雪姣
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map