|
NetApp 重复数据删除基础知识回顾
这部分的“基础知识回顾”介绍如何实施 NetApp 重复数据删除、最常见的用例、重复数据删除的实施方法等。
NetApp 早在 2007 年就推出了重复数据删除技术,该技术可显著降低存储容量要求。利用 NetApp 重复数据删除技术可找到相同的数据块,在执行字节级验证检查之后,以引用单个共享块的方式将其替换,从而提高效率。该技术可删除位于相同卷或 LUN 中的冗余数据块,从而降低存储容量要求。 NetApp 重复数据删除是 NetApp Data ONTAP操作环境和 WAFL文件系统(管理 NetApp 存储系统中的所有数据)不可或缺的组成部分。重复数据删除“在后台”运行,而与所运行的应用程序或访问数据的方式无关。此外,其开销极低。 人们经常会问及的一个问题是:“你们能节省多少空间?”,我们稍后将就此问题进行详细说明。但一般来说,节省多少空间取决于数据集大小及其包含的重复数据量。下面,我们通过亚特兰大 Polysius Corporation 公司的例子,来看看 NetApp 重复数据删除在企业数据与工程数据组成的混合环境中的价值。该公司从事新水泥厂的设计和老水泥厂的改进工作。 其生产方面的存储要求每年增长多达 30%。通过对 AutoCAD 文件、MicrosoftOffice 文档及其他非结构化数据组成的混合环境执行重复数据删除,Polysius 回收了 47% 的存储空间。有些卷中的数据减少了多达 70%。最终,该公司推迟了新存储设备的采购,并且成功使备份数据在磁盘上的保留时间延长了一倍。有关详细信息,请阅读 Polysius 成功案例。 NetApp 重复数据删除的一些明显优势包括: •在 NetApp 或第三方主存储、二级存储及归档存储设备上运行 •不依赖于任何应用 •不依赖于任何协议 •开销极低 •在 NetApp FAS 和 V 系列存储系统上都能执行 •逐字节验证 •既可用于新数据,也可用于以前存储在卷和 LUN 中的数据 •可在非高峰期运行 •与其他 NetApp 存储效率技术相集成 •使用 SnapMirror或闪存时,可继承重复数据删除实现的空间缩减 •简单的评估工具 •免费 这部分的“基础知识回顾”介绍如何实施 NetApp 重复数据删除、最常见的用例、重复数据删除的实施方法等。 如何在 Data ONTAP 中实施重复数据删除 从本质上讲,NetApp 重复数据删除依赖的是一项成熟的计算机科学技术 — 引用计数。过去,Data ONTAP 仅跟踪数据块是闲置还是在使用。现在,借助重复数据删除,它还能跟踪数据块的使用次数。对于NAS和SAN配置,借助重复数据删除,单个块最多可引用 255 次。文件不“知道”它们在使用共享块 — 在 WAFL 中进行记录能以不可见的方式管理这些详细信息。
Data ONTAP 如何确定两个块可以共享?答案是它会计算每个块的“指纹”,也就是块数据的哈希值。指纹相同的两个块便适合共享。 启用 NetApp 重复数据删除之后,它会计算卷中所有在用数据块的指纹数据库(此过程称为“收集”)。完成此初始设置之后,即可对数据执行重复数据删除。 为避免减慢常规操作的速度,重复数据搜索作为单独的批处理任务来执行。在正常使用期间,WAFL 会在写入数据时创建该数据的指纹目录。该目录一直积累,直到存储系统管理员确定的以下任一事件触发重复数据删除为止: •手动发出重复数据删除“启动”命令 •开始执行计划的重复数据删除过程 •卷中写入了 20% 的新数据 •当 SnapVault传输完成时 启动重复数据删除过程之后,以更改的块的指纹作为键值开始排序操作。然后,此排序列表将与指纹数据库文件合并。只要两个列表中存在相同的指纹,就有可能将相同的块合并为一个。在这种情况下,Data ONTAP 会弃用其中一个块,而以引用另一个块的方式将其替换。因为文件系统时刻在变,只要两个块确实仍在使用且包含相同数据,我们当然就可以执行这一操作。为确保两个块确实相同,在确定适合重复数据删除的块之后,会进行逐字节比较。 NetApp 重复数据删除的实施利用了 WAFL 的一些特殊功能,可以最大限度地降低重复数据删除的成本。例如,磁盘上的每个数据块都使用校验和进行保护。 NetApp 使用该校验和作为指纹的基础。由于无论如何都会计算校验和,相当于“无偿”获得,因此不会给系统增加任何负担。且由于 WAFL 从不覆盖正在使用的数据块,因此在释放数据块之前,指纹将保持有效。NetApp 重复数据删除与 WAFL 的紧密集成也意味着更改日志的操作将会非常高效。其结果是:重复数据删除可用于大量的工作负载,而不仅仅用于备份,这与其他重复数据删除实施方案是不同的。 用例 自推出重复数据删除技术以来,NetApp 一直在衡量重复数据删除在实际环境中的优势。最常见的用例是 VMware和 VDI、主目录数据及文件服务。该技术也在迅速应用于 Microsoft SharePoint和 Exchange 2010。 我们已经在 Tech OnTap 上刊载了多篇文章,重点介绍重复数据删除技术在 VMware 和 VDI 环境中的独特优势。在此类环境中,由于每台虚拟机使用几乎相同的操作系统环境,因此数据重复的程度自然是很高的。下表汇总了各种环境下的典型结果。
在典型的 VMware 或 VDI 环境中,可能有大量的虚拟机 (VM) 全部安装着几乎相同的操作系统和应用程序,产生了大量的重复数据。 如果有 100 台 VM 运行相同的操作系统,每台虚拟机需要 10 GB 到 20 GB 的存储,就会有 1 TB 到 2 TB 的存储被几乎相同的副本专门占用。应用 NetApp 重复数据删除可以删除大部分本质上冗余的数据。 实际上,客户在 ESX VI3 环境中通常能够节省 50% 甚至更多的空间,有些客户的存储节省多达 90%。这是对整个 VMware 存储环境(不仅包括操作系统,还包括应用程序数据)执行重复数据删除的情况下得出的结果。在 VDI 环境中,客户通常节省空间多达 90%。 NetApp 也一直在研究重复数据删除为常见工程和科学应用程序创建的非结构化文件数据的存储库带来的益处,下面以 Siemens TeamcenterPLM软件、IBMRational ClearCaseSCM软件和用于地震数据分析的 Schlumberger Petrel 软件为例进行说明。 Teamcenter 使用了一个相对较小的元数据数据库和一个用于存储工程设计文件的大型“存储库”。每当工程师在 Teamcenter 中保存设计时,程序就会在存储库中保存该设计文件的完整副本,即使仅对设计做出十分细微的更改也会如此。 NetApp 与 Siemens PLM 密切合作,使用 Siemens 的性能和可扩展性基准工具模拟正常使用时为大量设计文件创建多个修订版本的操作,据此评估重复数据删除在 Teamcenter 环境中的价值。对生成的存储库执行重复数据删除可节省 57% 的空间。鉴于在许多情况下,文件修订版本数量可能多于我们模拟的数量,因此实际节省的空间量可能还会更高。(当然,一般来说,使用模拟方法来衡量重复数据删除可能节省的空间时,必须非常谨慎。在许多情况下,由于关注的通常是性能而不是数据形态,因此模拟的数据会人为地造成非常多的重复数据。) 与 Teamcenter 类似,领先的软件配置管理解决方案 IBM Rational ClearCase 也包含元数据数据库和用于存储文件的大型“版本化对象库”,简称 VOB。在需要创建 VOB 副本时,对 ClearCase 执行重复数据删除是最有帮助的。此外,实验室环境中的初步结果表明,存储完整的文件时,在 ClearCase 环境中执行重复数据删除可节省空间 40% 甚至更多。 Schlumberger Petrel 用于地震数据解析、油气藏可视化和模拟工作流。它会创建包含大量文件的项目目录。用户创建、分发和归档数据时,会在多个存储设备中存储重复数据对象。通过对此类项目目录应用重复数据删除,NetApp 节省了大约 48% 的空间。
责编:杨雪姣
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|