盘点:八大云计算服务中断事故
    • 前言

      云计算并不是完美无缺的,随时都会有服务中断故障发生。上述这些大企业要做的就是研究这些错误产生的原因,并改正这些问题,以免被后起之秀取代。在以下提到的服务中断事故中,有些是由内部、成熟技术发生事故,有些是非普及、发展中的未知技术(比如云计算)造成的。出现这样的问题,并不是因为云计算不能被信任。问题的关键在于正确部署一个云计算应用并不像购买一些服务器实例一样简单。

      点评:用户信息安全问题能否解决是关系到云服务能否得到用户认可的关键要素。

    • 一、亚马逊WEB服务中断

      2011年4月21日凌晨,亚马逊公司在北弗吉尼亚州的云计算中心宕机,此次中断持续将近4天,导致包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站均受到不同程度的影响。亚马逊为宕机事件向用户发表道歉信,并声称会对EC2做一些修复和调整,对所有的服务进行改善,避免类似的事件再度出现。另外,亚马逊还表示对在此次故障中受到影响的客户给于10天服务的点数。

      点评:亚马逊宕机事件似乎有一个完美结局:厂商及时修复漏洞,书面道歉,赔偿损失。

    • 二、Salesforce服务中断

      在2010年1月,几乎6万8千名的Salesforce.com用户经历了至少1个小时的宕机。 公司称,由于自身数据中心的“系统性错误”,包括备份在内的全部服务发生了短暂瘫痪的情况。
      这也露出了Salesforce.com不愿公开的锁定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出现问题,Force.com同样会出现问题。这场服务中断还没有对公司造成很大影响,Salesforce.com首席执行官在服务中断出现后的一个月内又开始宣称Salesforce.com是“最大的云计算企业”。

      点评:但总之,这次事件只是又一次地提醒人们:百分之百可靠的云计算服务目前还不存在。

    • 三、Gmail故障

      最近的中断故障让15万Gmail用户在登录自己的账户之后只看到一个空白页,没有邮件和文件夹,没有任何东西表明他们实际上在看自己的收件箱。值得赞扬的是,谷歌提供了定期的更新并且承诺迅速修复故障。但是,对于某些受影响的用户来说,谷歌修复这个故障用了4天时间。 2009年3月10日早上5点开始,Google的Gmail服务再次意外宕机,小部分用户无法访问自己的邮箱。上一次Gmail宕机是在2月份,由于数据中心故障,导致包括美国,欧洲和亚洲的全球多个地区Gmail用户无法访问自己的邮箱。

      点评:故障是不使用云连接东西的一个理由吗?只是当你进入到Web规模时,故障的影响放大了。

    • 四、微软爆发BPOS服务中断事件

      2010年9月,微软在美国西部几周时间内出现至少三次托管服务中断事件向用户致歉。这是微软首次爆出重大的云计算事件。事故当时,用户访问BPOS(Business Productivity Online Suite)服务的时候,使用微软北美设施访问服务的客户遇到了问题,这个故障持续了两个小时。虽然,后来微软工程师声称解决了这一问题,但是没有解决根本问题,因而又产生了9月3日和9月7日服务再次中断。 这次数据突破事件是由于微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的。

      点评:可见,就算是著名的微软公司,面对提供公有云服务的安全问题,也显得有些束手无策。

    • 五、Rackspace云服务中断

      2009年6月,Rackspace遭受了严重的云服务中断故障。供电设备跳闸,备份发电机失效,不少机架上服务器停机。这场事故造成了严重的后果。同年11月,Rackspace再次发生重大的服务中断后。
      事实上,它的用户是完全有机会在服务中断后公开指责这位供应商的,但用户却表示“该事故并不是什么大事。”看来Rackspace不是走好运,而是持续提供了充足更新并快速修复了这些错误。对于所谓的“100%正常运行”,大多数用户似乎不会因为偶尔的小事故而放弃供应商,只是不要将问题堆积起来。

      点评:看来,如果没有严重数据的丢失,并且服务快速恢复,用户依旧保持愉快的使用体验。

    • 六、Terremark宕机事件

      2010年3月,VMware的合作伙伴Terremark就发生了七小时的停机事件,让许多客户开始怀疑其企业级的vCloud Express服务。此次停机事件,险些将vCloud Express的未来断送掉,受影响用户称故障由“连接丢失”导致。此外,用户对供应商在此次事情上的处理方式极为不满意。
      Terremark官方解释是:“Terremark失去连接导致迈阿密数据中心的vCloud Express服务中断。"关键问题是Terremark是怎么解决这个突发事件的,这家公司并没有明确的方案,只是模糊地对用户担保,并对收到影响的用 户进行更新。

      点评:如果一个运供应商想要说服企业用户在关键时刻使用它们的服务,这样的方式是达不到目的。

    • 七、Intuit因停电造成服务中断

      2010年6月,Intuit的在线记账和开发服务经历了大崩溃,公司对此也是大惑不解。包括Intuit自身主页在内的线上产品在内近两天内都处于瘫痪状态,用户方面更是惊讶于在当下备份方案与灾难恢复工具如此齐全的年代,竟会发生如此大范围的服务中断。 但这才是开始。大约1个月后,Intuit的QuickBooks在线服务在停电后瘫痪。这个特殊的服务中断仅仅持续了几个小时,但是在如此短时间内发生的宕机事件也引起了人们的关注。

      点评:公司没有Amazon和Rackspace这样的知名度,中断也没有造成很大的影响。

    • 八、PayPal断网故障

      eBay旗下PayPal是全球最大的网络支付服务,活跃用户达7540万,其中既有小型商户,也有沃尔玛等电子商务巨头。 2009年夏季PayPal的断网故障,。这项服务在大约一个小时的时间里完全不可用,在后来的几个小时里仍是断断续续的。eBay发言人纳亚尔说,这次故障是由“内部网络硬件问题”造成的。
      纳亚尔称,他不清楚这次故障会给业务造成多大损失,但eBay曾表示,PayPal每秒处理价值2000美元的电子商务交易。这意味着每小时通过Paypal系统处理的支付金额高达720万美元。

      点评:这种中断故障是很少发生的。但是,这个不幸的断网故障使PayPal轻松在云计算的耻辱堂上赢得一个位置。

Baidu
map