Netapp:探索数据管理的未来

  作者:Amteam.org
2006/10/23 10:04:00
本文关键字: 存储 备份

Network Appliance 创始人和技术领导人分析企业数据管理的负担,提出数据存储解决方案将如何为解决这些难题而发展的模型,并讨论存储和数据管理的未来。本论文是 NetApp 远景系列的第一篇。

1 引言

全球性的数据爆炸才刚刚开始。由于宽带互联网接入的快速增长、数据设备的增加以及需要通过复制来保护重要数据的做法,日常生活中的数字内容呈指数增长。随着数据量的增长,数据存储和管理的复杂性也相应增加。

在本论文中,我们将研究管理数据的难题和负担,提出有关数据存储解决方案将如何为解决这些难题而发展的模型,并讨论数据存储和管理的未来。

我们首先讨论拥有数据所产生的负担。数据增长,全球对数据访问的需求增大,法律要求更复杂,数据中断的后果越来越严重,数据寿命更长,所有这一切都使 IT 架构师承担的责任越来越大。因此,CIO 和 IT 架构师越来越依赖存储供应商并要求他们帮助解决这些问题。

接下来,我们研究一个表示存储解决方案发展的模型。通过研究数据存储和管理技术的过去、现状和未来,可以发现能够最有效地减轻 IT 压力的技术进步。

然后我们使用存储发展模型来说明 Network Appliance 认为对增强存储系统功能和提高 IT 管理员效率最有效的三个革新领域。

最后,我们讨论随着存储标准的发展和虚拟化技术的日益完善,存储和数据管理的新范例成为现实的可能性。虽然虚拟化将实现的自动化程度在目前看来仍像是科学幻想,但是从当前的法规遵从和备份系统来看,这样的未来并不像人们所想像的那样遥远。

2 拥有数据所产生的负担

我们正处在全球数据爆炸的开始阶段,相比之下未来 50 年人口急剧增长显得微不足道。到 2050 年,世界人口预计从 65 亿增加到 91 亿。更惊人的预测是,自动监视和数据收集设备(50 年前闻所未闻)的数量可能不久就超过人类。更多人口 + 更多设备 + 更多时间 = 更多数据。据IDC Worldwide Disk Storage Systems Forecast 2006-2010 ,我们可以预计全球数据在这十年中的复合年平均增长率为 50.6%。这个增长率意味着每 5.5 年左右,需要管理的数据将增加 10 倍。

数据呈指数增长

现在创建和访问数据比以前更容易。单单互联网数据,全球超过十亿用户不停地在创建,并且这个数字每天都在增加。互联网已经成为静止图像、视频和音频的巨大存储库。手机、便携式计算机和 PDA 不断增多,这些设备通过专用网络、无线网络和互联网等多种访问点连接数据,所有这一切都加快了数据的增长。用于组织连续性和安全的环境传感器、视频监视系统和通信记录系统在公共和私营部门中创建大量基本数据。

非结构化数据(未存储在数据库中的大量文件和电子邮件)是这种增长的最主要因素,占组织在线存储数据量的 70% 到 80% 。此类数据的增多是大量书面存档的日常转换。

数据文件的有意副本也加剧了数据量的增长。重要数据例行复制到多个位置以防止所有类型的灾难。例如,在数据挖掘领域,通常为了运行商务智能查询而复制巨大的数据库。应用程序开发和测试过程中也会有意地创建大型数据库的大量临时副本。在全球,重要数据例行复制到多个位置以防止所有类型的损失。

个人在共享文件时无意中创建数不尽的数据文件副本,使问题更加复杂。请看某个人将一个文件发送给 15 位同事时产生的副本数:收件人将文件保存到个人系统之后,可能还复制一次文件作为备份,按规定第二次复制,第三次复制用于灾难恢复。这样,将单个文件发送给 15 个人可能产生 60 个文件副本:15 个有意副本和另外 45 个无意副本。

数据管理成本急剧增长

随着数据量的增长,复杂性相应增加,因此数据管理成本也相应增加。具体地说,数据管理复杂性随不断增长的数据量呈对数增长。

存储数据的成本是一种消耗。存储密度不断提高,使保存数据比决定什么值得保存的成本更低。数据对未来应用有价值的可能性使人们对不加区别的选择感到悲观。在没有经济原因而需要对所有现有数据进行整理的情况下,没有人执行清理工作。这种低效率对 IT 预算造成空前的消耗。由于存储器成本的不断下降,一种使所有这些数据保持可用的观念使得 CIO 和 IT 管理员愿意付出更多。

访问要求更严格。数据访问需求也越来越具有挑战性。全球化有效地终止了计划停机时间。虽然纽约正值休息时间,但是上海却正值工作时间,数据必须全天候可用。如今的网上世界要求 100% 的数据可用性。

易管理性困境

不保留:不再需要时由用户删除的临时数据。

保留到某个时间:法规要求保留规定的一个时期才能删除的数据。

由于不知道而无限期保留:永远不会被删除的数据。

法律要求更复杂。越来越多的商务运作采用数字方式进行记录和存储,关于商务和数据的法律法规越来越多,并且未能遵从这些法规所导致的后果会越来越严重。在美国,未能保持客户个人信息安全可导致入狱和最高罚款 50 万美元。Sarbanes-Oxley 规定,未能遵从数据保留政策可导致最长 20 年监禁和最高 500 万美元罚款。Gartner 预测,到 2006 年末,没有将数据库中存储的信用卡号加密将被视为美国未授权公开民法案例中的法律疏忽。欧盟要求电信部门保留三年之内的客户电话记录。无论在什么国家或地区,这些法律法规的负担总是落在 IT 部门。

商务风险后果更严重。全球网上经济要求空前的数据可用性和安全性。从短期观点来看,数据中断会对公司的盈利产生有害影响。从长远观点来看,数据中断会损害公司的声誉并产生严重的财务影响。

除了无法访问数据之外,丧失数据安全性的后果也很严重。Gartner 在 2005 年 9 月对侵犯隐私的成本进行的一项量化研究中,Gartner 估计 100,000 记录侵犯隐私的成本是平均每个客户帐户 90 美元,包括通知、信用报告和法律成本,但不包括罚款和品牌损害。

许多因素都会增大安全风险;其中一个是数字数据高度便携。目前,一卷备份磁带可以保存 2000 万磅重的书面文件。从前只能放在巨大仓库中的数据现在可以放在口袋中随身携带。此类数据整合产生大量安全漏洞。

人类管理的数据已经太多。归根结底,只有三种类别的数据:不保留的数据、保留到某个时间的数据以及由于不知道而无限保留的数据。其中,无限期保留的数据占绝大多数。

并非所有无限期保留的数据将来都要使用。但是考虑到一卷备份磁带等于 2000 万磅书面文件,显然设法判明哪些数据值得无限期保留是一项耗费巨大的任务。靠人工挑选此类数据也显然永远不会发生。如今,保存所有数据比决定要丢弃哪些数据更容易且更划算。

要规划一个存储环境,使它能够有效地满足访问、安全、法规遵从、成本控制和更改等方面的要求,IT 架构师必须担当多种角色。他们需要是律师、保安、财务总监、外交官、技术专家和预言家。期望 IT 架构师成为所有这些方面的专家并不现实,因此CIO 现在转向存储供应商寻求帮助。

NETAPP 远景系列:探索数据管理的未来(2)

3 存储技术的趋势

代表存储解决方案发展的 NetApp 模型具有两种成分,反映存储基础设施以及建立在基础设施之上的存储和数据管理功能。存储基础设施革新以图形表示,由该模型的“存储技术普及”成分中的波形表示。添加到存储基础设施中的功能以该模型的“存储和数据管理”成分中的堆栈表示。

存储技术普及

首先讨论存储基础设施革新。存储体系结构的进步是为了突破现有技术限制和难题而取得的。图 1 表示市场普及周期:从网络计算早期的直连存储 (DAS),到如今的网络存储,再到多年以后将成为现实的存储网格和全球存储网络。如图 1 所示,我们现在处于直连存储时代的末期和网络存储时代的快速增长时期。为了准确地评估我们如今所处的时期以及即将进入的时期,我们需要考虑波形下面的面积,而不是曲线本身上的点。虽然我们似乎很快就会到达曲线顶点,我们仍需要经过很大一个面积才能到达,并且在到达之后,我们还需要更多革新,但是呈下降趋势。这样看来,我们仍需要大量网络存储革新。


图 1 存储和技术普及模型

直连存储

直到二十世纪九十年代早期,直连存储(其中各个磁盘直接连接到各个服务器)才成为主存储模型。尽管存在缺点,DAS 目前仍在广泛使用。虽然磁盘本身并不贵,但是直连存储的关联成本(许可服务器连接和管理)与更新的存储技术相比相对较高。管理直连存储和满足不断变化的应用需求在 DAS 环境中特别困难,原因是 DAS 只能逐个磁盘或逐个服务器进行管理。增加的管理成本是与低利用率关联的成本。我们采访了全球许多存储管理员,他们认为 DAS 环境的典型利用率只有 35%。幸好当数据隔离、低效利用、复杂管理、更高成本和有限可扩展性的烦恼让人无法忍受时,网络存储可以减少这些烦恼。

网络存储

网络存储(存储革新的第二个波形)是为了突破直连存储限制而发展起来的。网络存储的常见实现方式是存储区域网络、iSCSI 和网络附带存储 (NAS)。

网络存储将存储磁盘整合到可以由不限数量的服务器通过标准网络协议进行访问的存储池中。最大的整合存储系统可包含可以作为单个实体集中管理的一千多个磁盘。

1992 年,Network Appliance 首创网络存储专件设备 ― 一种连接到网络的专门文件服务器。如今网络存储市场大约是 DAS 市场大小的两倍,并且尚未到达顶峰。由于处于普及周期的早期,网络存储系统仍存在革新潜力。未来网络存储革新将集中在两个方面:提高存储系统的效率和性能以及提高负责存储和数据管理人员的效率。

但是,网络存储系统的当前限制是网络存储系统只能扩展到一定程度。单个磁盘系统不能扩展到足以满足一个组织的所有数据存储需求(无论它包含几百还是几千个驱动器)。

扩展体系结构的另一个限制是扩展会导致对单个系统的依赖性更大并增加系统故障的后果。单个系统不可能 100% 可用,并且努力追求 100% 可用性的结果是需要很昂贵的体系结构。

存储网格

下面我们讨论下一个大发展:基于扩展体系结构的存储网格。扩展体系结构不是将磁盘整合到更大的单个框架中,而是将多个存储系统整合到一个可以作为单个实体进行访问的共享存储池中。

扩展体系结构已经成为其他计算领域的必然趋势。例如,分布式 IP 数据网络在许多年以前取代集中式大型机 SNA 网络。低成本服务器的群集和网格不断证明在商务应用程序共享方面比大型 SMP 系统更经济。甚至微处理器本身已经从更高时钟速度的扩展模型发展到多核心的扩展模型。

扩展体系结构将使虚拟化技术获得新应用,可能使数据中心执行商务的方式发生革命性变化,从而大大提高效率。

我们相信扩展模型对存储技术的持续发展至关重要,因为该模型将实现很高的操作效率。最后,进一步实现异构虚拟化和自动化所需的存储和数据管理标准将来自扩展系统的发展。

由于扩展体系结构将实现的诸多利益,许多供应商将提供存储和数据管理扩展技术。我们预计不同供应商的网格将只在有限程度上实现互操作,每个供应商的大多数复杂功能只能在他们自己的网格中使用。数据岛将成为巨大的、真正的数据孤岛。为实现所有数据孤岛之间的可靠互操作性,我们需要讨论下一个发展阶段。

全球存储网络

模型的最后的一个波形表示全球存储网络。在这个发展阶段中,存储的主要特性是通用标准使所有供应商的产品无缝地配合使用并实现自动化。通过自动化,当前加重 IT 预算负担的所有数据管理任务都将不需要。整个存储网络作为单个实体进行管理。这是数据理想境界。

不幸的是,这个发展阶段不会很快到来,因为它取决于业界对目前并不存在的通用存储和数据管理标准的接受程度。导致这些标准出现的数据管理模型尚未开发。我们相信扩展体系结构的开发是全球存储网络重要的第一步。

此模型中的所有波形表示长期缓慢的过渡。我们当前处于网络存储呈上升趋势的位置,我们刚刚看到新的扩展技术。考虑到业界从网络存储开始到目前阶段所用的时间(大约 25 年),我们预计全球存储网络在很多年之后才会成为革新焦点。

存储和数据管理

图 2 中表示的存储和数据管理解决方案发展模型可以看作一个连续统一体:一个功能层次结构,最低级别为磁盘级和块级存储管理,最高级别为服务器级和应用程序管理。对于如何标记此层次结构中的点,不同的组织具有不同的方案。但是,所有组织都同意,物理存储层在底部出现,商务管理层趋于顶部。


图 2 存储和数据管理解决方案

三个不同的解决方案领域从下往上随时间发展。首先,层次结构的底层是存储系统本身。此领域的革新是系统供应商的自身责任。

价值链往上是数据存储和管理解决方案,它们是存储系统供应商提供的附加解决方案。这些解决方案有时称为同类解决方案,因为它们是存储系统供应商提供的功能,仅适用于该供应商的存储系统上的数据。

在层次结构中沿时间进一步向上移动,我们看到有时称为异构解决方案的解决方案,这些功能解决超出存储系统和存储供应商的附加解决方案功能之外的问题。异构解决方案通常较晚出现,因为依赖只有在技术成熟时才能制定的标准。由于它们以标准为基础,异构解决方案通常适用于多个供应商的存储系统。根据存储革新的每个发展阶段,存储供应商可以通过了解前一阶段产生的需求,更好地预计存储系统的基本需求。以前是附加解决方案的同类解决方案合并到新系统中。新的配备更多功能的基本存储系统变得更复杂。新的存储和管理问题出现时,存储供应商将开发更多解决方案,以满足系统本身无法满足的数据管理需求。在革新的下一个阶段,其中许多功能将成为系统中的标准,周期将继续。

图 3 说明了这一概念,因为它适用于网络存储的发展。由于转向网络存储,原来用于DAS 堆栈中较高层次以及存储系统之外的功能向下移动到存储系统中。例如,内置RAID 和卷虚拟化在 DAS 领域是附加功能,但是它们成为当前网络存储系统的要求。在 NAS 的情况下,甚至文件系统本身移动到存储系统中。

随着数据管理功能从应用程序迁移到存储子系统中,存储系统本身的基本功能越来越丰富。因此,随着时间的推移,应用程序的存储管理开销日益减轻。


图 3 DAS 到网络存储

在新技术的早期阶段,上一代中由异构解决方案提供的顶层功能不能立即可用。最早的附加功能总是来自系统供应商。标准出现常常需要一段时间,然后即可开发新技术的异构层。

4 减轻拥有数据所产生的负担

为解决不断增长的数据拥有负担,业界将继续进行三个方面的革新。第一个方面将是网络存储系统本身。第二个方面将是网络存储系统的增值数据管理解决方案。第三个方面将是扩展技术革新。

Network Appliance 正在开发所有这三个方面的产品和解决方案,不断降低成本和复杂性,降低风险并加强控制,使组织能够适应变化。


图 4 三种应用革新的方法

网络存储系统

虽然我们如今在普及曲线上似乎没有走得很远,但是网络存储已经是相当成熟的市场。主要参与者是 Network Appliance 、服务器供应商 IBM 和 HP 以及 EMC。这些公司负责存储系统本身发生的革新。

网络存储系统产生关于有效地管理大量磁盘的难题:如何才能最有效地管理存储而使利用率最高并减少存储需求?这方面的改进将来自磁盘级虚拟化,磁盘级虚拟化将使管理大量磁盘就像管理一个(很大的)磁盘,并且能够进行逻辑分区而不必考虑物理磁盘边界。

虚拟化:将您所有的转化为您所需要的。

虚拟化是计算机科学中的一个旧概念。虚拟内存、虚拟局域网 (VLAN)、虚拟专用网络 (VPN)、虚拟 PC 服务器和虚拟磁盘库 (VTL) 都是虚拟化示例。但是,它们在解决的问题、适用对象以及工作方式等方面不相关。因此是“存储虚拟化”。该术语本身没有提供关于它是什么或它做什么的提示,只是将这个虚拟化概念(无论是什么)应用于存储。

那么究竟什么是虚拟化?它是使我们能够超越物理现实限制的技术。


图 5 虚拟化

考虑虚拟服务器:您需要 10 台服务器来运行 10 个独立应用程序,但是现实情况是您只有一台服务器。虚拟服务器技术使您的单台服务器就像是 10 台独立服务器。VPN 是另一个很好的示例:您希望拥有从家庭 PC 到公司网络的专用安全连接。使用加密和隧道,VPN 软件为您提供使用公共互联网所需的专用安全连接。

在网络存储领域,物理现实由几百(甚至上千)个磁盘驱动器组成。但是,我们需要一个可扩展的大型磁盘存储池,以便可以根据需要从中分配存储,而不必指定任何内容实际所在的磁盘。

提高磁盘利用率

虚拟化磁盘和卷是简化配置和提高磁盘利用率的关键。(简化配置使管理员能够保持单个缓冲池,其可用空间满足所有应用程序的数据增长需求。)例如,NetApp 的FlexVol 技术允许创建灵活卷。由于灵活卷的参数不与卷在磁盘上的物理位置关联,存储管理员可以根据实际使用动态地配置卷,方便快速地配置和重新配置存储。此功能对存储利用率具有很大的影响。由于配置更高效,需要的磁盘更少,为满足用户的应用需求而需要购买的存储更少。

提高效率

如今,存储管理员常常被应用程序管理员的请求淹没,应用程序管理员依靠存储管理员添加新 LUN、扩展现有 LUN、将 LUN 还原到较早的时间、增强对 LUN 的数据保护保证等等。正如 ATM 减轻了银行出纳员的工作而让客户自助访问其帐户,虚拟化通过使应用程序、服务器和数据管理员能够更直接地控制存储,将会减轻存储管理员的工作。自助意味着这些管理员可以随时执行常见配置任务,而不需要存储管理员的干预。并且正如客户管理其帐户时银行仍在控制,存储管理员将能够通过他们实施的策略和流程保持控制。


图 6 使用虚拟化提高效率

数据管理员配置的自助仅仅是虚拟化技术的潜力之一。磁盘虚拟化将实现新服务和更高程度的自动化,从而使每个人效率更高。

网络存储的数据管理

网络存储革新的另一个领域是异构数据管理领域。对更好的安全性、数据管理、数据迁移和数据智能功能的 IT 需求随每个连续的革新阶段增加。除了服务器层之外,您可以使系统增值吗?我们认为最大的增值机会在于利用网络本身。

用于通过网络访问数据的标准协议(如 NFS、CIFS、FCP、FC-TAPE、iSCSI 和HTTP)已经出现,使附加设备可行,从而开创革新的全新领域。制定网络存储领域的标准使我们可以向大量现有服务器和存储设备添加新功能,而无需更改这些设备。此领域的 NetApp 产品示例包括:

  • Decru Data Fort----数据加密设备
  • NearStore VTL----虚拟磁盘库
  • Information Server----数据分类和迁移设备


图 7 使用标准使网络存储增值

在未来许多年中,您将可以看到 NetApp 在数据安全性、数据管理、数据迁移、数据分类及其他方面的技术进步。

存储网格

扩展存储系统代表存储系统技术的下一次划时代的飞跃。扩展存储系统体系结构将多个系统整合到一个可以作为单个系统进行管理和访问的公用存储池,打破了系统界限。此体系结构为了解决管理数百个网络系统的复杂性而不断发展。

此领域最初的努力集中在支持大型计算密集环境上,该环境超过任何单台计算机的吞吐量。如果无法整合所有所需存储的管理,在支持成千上万的节点时管理存储令人沮丧。通过整合存储系统的管理,扩展技术进一步简化了存储和数据管理。扩展技术具有许多优势。它们不仅提高了灵活性和可用性,而且还使您能够更改保持可接受性能级别的方式,甚至在要求最严格的条件下也是如此。

NetApp 的扩展体系结构模型:虚拟化系统

在扩展系统的情况下,我们使用一个具有不同功能的存储系统集合,我们希望它们对用户和管理员就像一个大型存储池一样。

我们让所有用户都能够访问他们需要的精确存储类型,无论对于长期备份高容量 ATA 磁盘,还是对于高可靠性、完全冗余和完全复制的企业存储上的宝贵财务数据。

虚拟化系统使管理员能够像在管理一个大型系统一样管理独立存储系统。使用虚拟化,不仅可以向用户隐藏系统复杂性,而且可以对管理员降低复杂性。

 


责编:
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map