EMC重复数据删除汲取微软闪存研究成果

来源:ZDNet  
2011/2/24 10:57:48
EMC最近将微软的研究成果应用到闪存中,作为DRAM和硬盘之间的一个内存层,以提高Data Domain重复数据删除的速度。

本文关键字: 硬盘 数据 项目

EMC最近将微软的研究成果应用到闪存中,作为DRAM和硬盘之间的一个内存层,以提高Data Domain重复数据删除的速度。

FlashStore是微软的一个研究项目,该项目主要研究将闪存写入分批放进服务器主内存中,再将其作为一页或一块写入,实际上就是把随机闪存写入转换成连续写入,避免块擦除/写周期(这是闪存所特有的)。

这些周期不仅会使闪存写入变慢,由于特定一段时间内块擦除/写周期增加,可能导致使用寿命缩短,而且闪存块的擦除/写周期也是有限的。

微软研究人员表示FlashStore可以通过使用索引访问闪存缓存中的数据,在最大程度上减少对DRAM的占用。

有一个关键:利用哈希表索引来存储数值。微软表示使用Cuckoo Hashing可以节约该表行和列的空间,从而减少哈希表中槽的数量和大小。

在Cuckoo Hashing中,任何键值都使用了两个哈希函数而不是一个,并在表中给键值分配了两个位置而不是一个。表槽中的任何预留键值都会被导出,并被放入替代槽,导出任何已经驻留的键值,直到发现空槽。

显然,这样可以节省查找时间,只需检查两个插。但该表必须保持低于半满的状态,如果表全满,就没有空槽来储存剩下还未放置的哈希键值,这时必须重新构建。

从计算科学领域回归

研究人员表示,FlashStore 的DRAM表可以减少对DRAM的占用,提供每一次查找平均一个闪存读取的高速访问。这意味着服务器使用FlashStore后,执行速度可以快上好几倍。“数十个因素可以提高数据吞吐量”。

研究人员还称:“这对于有高IOPS需求的应用很有意义,一块使用FlashStore的闪存盘可以替代10到20块硬盘。”

这不仅可以节省资本开支、节能、节省运营开支、还能获得更快的吞吐量:可谓是成本、能源、性能三个指标共赢的解决方案。

重复数据删除

似乎重复数据删除也能应用这项技术。微软关于FlashStore的官方介绍:“在为重复数据删除测试执行数据块索引任务时,FlashStore相比RAM、硬盘或闪存,能够提供更加显著的出色结果。”

微软研究团队在2010年发表了一篇报告,介绍了名为ChunkStash项目的使用。报告称:

ChunkStash每次数据块查询使用一次闪存读取,并配合RAM预读取策略。它将元数据块在闪存上组织为日志文件,以开发更快的顺序写入。ChunkStash利用内存中的哈希表来为它们编制索引,并通过Cuckoo Hashing的变体解决哈希冲突。

参与过FlashStore项目的Debnath博士在去年11月作为高级软件工程师加入了EMC,现在供职于备份与恢复系统部门(包括Data Domain和Avamar的产品)。Debnath曾在博客中写道:“重点是构建可扩展的索引,以支持大容量重复数据删除系统。”

EMC目前还未采用安装有高速缓存的服务器,但拥有具备企业级闪存驱动器(EFD)存储层的存储阵列,这可以作为阵列的通用FastCache,阵列I/O的缓存方式几乎和NetApp控制器中的FlashCache相同,而缓存读取和写入的方式则不同于NetApp技术,NetApp现在只能做到读缓存。

令人期待的是,EMC可能提供具有PCIe连接闪存的Data Domain控制器,可能会采用Fusion-io、STEC或Violin Memory的闪存产品,且具有更高的重复数据删除性能。

此外要补充一点:微软可能会在其存储产品中采用FlashStore,比如Windows Storage Server。按照微软服务器的模式,这就需要服务器供应商加强x86服务器集成闪存层。值得注意的是,戴尔已经按照这种方式使用了Fusion – io,并收购了专业图像与文件重复数据删除厂商Ocarina,但是也别奢望戴尔在未来能够推出类似FlashStore的系统。

事实上,有人预测,未来一两年内,用于IOPS密集型应用的重复数据删除系统控制器和服务器将会配置一个闪存层。

责编:张欢
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
IT系统一体化时代来了

2009年Oracle 用Exadata服务器告诉企业,数据中心的IT服务一体化解决方案才是大势所趋,而当前企业对大数据处理的..

高性能计算——企业未来发展的必备..

“天河二号”问鼎最新全球超级计算机500强,更新的Linpack值让世界认识到了“中国速度”。但超算不能只停留于追求..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map