|
揭开双十一背后数据中心运维保障故事“双十一”即指每年的11月11日,由于日期特殊,因此又被称为光棍节。而大型的电子网站一般会利用这一天来进行一些大规模的打折促销活动,以提高销售额度。 在淘宝有一个应用运维团队,即PE团队。PE团队负责淘宝网在线交易、广告系统、数据平台等应用运维系统技术部门,是为淘宝带来高速增长核心运维团队。11·11购物节也给PE团队带来了巨大压力。基本上为了应对11·11购物节,PE团队提早就做足了准备工作。比如包括:检查全国各地数据中心运行负荷情况,以便在高峰流量到来时灵活分散访问流量;增加备件,做好配置,大量的设备硬件出现故障不可避免,在关键业务设备做好备件,一旦出现故障及时更换,将故障时间控制在几分钟内;协调好各种设备的供应商厂家工程师驻场待命,以便出现故障时,和PE团队共同处理,减少中间的沟通环节,缩短故障处理时间;启动这种应急预案,对可能发生的突发情况进行预判,制定响应的方案;在11·11之前进行故障模拟演练,验证解决方案是否可行。在做好的充分准备后迎接11·11的到来。 在11·11购物节的24小时里,PE团队的人员会时刻关注着淘宝网站的运行情况。主要监控三个方面的状况:一、是监控业务层面,比如说本来每秒创建是2000笔的,现在突然一下降成500笔了,这就可能有问题了,再有可能订单生成,有丢单等等,这些业务层面的问题会大大影响销售额,这样PE团队就会立即召集业务部门和软件开发系统的人员公共分析问题原因。二、是应用系统监控。检查JVM跑的是否正常,是不是有频繁的垃圾回收,反馈时间是否在200MS以内,一旦反馈时间超过200MS,则访问网站的速度就会下降,如果超过500MS,则访问网站的体验就会很差了。这时PE团队要系统软件开发人员共同分析问题,找过故障点。三、是基础设施保障,这种基础的包括网络、服务器、存储设备等。比如说我们的路由器是不是通的,我们的交换是不是有问题啊,DNS服务是不是有问题啊,等等。 11·11购物节过后,PE团队要对数据中心出现的问题进行总结,杜绝类似问题再次发生,11·11是对淘宝数据中心的一次巨大考验,很多问题都会在这样的突发流量下暴漏出来,所以对于PE团队也是难得的一次学习机会。淘宝的数据中心出口带宽已经超过两个T,就是在峰值的时候,每秒出去两个T的数据。由此可见,淘宝数据中心的处理能力是超强的,但简单的提升网络访问带宽还远远不够,需要的是淘宝数据中心整体的处理性能的提升。经过11·11购物节的洗礼,PE团队会找到目前数据中心薄弱的地方,然后再不断改进。 在淘宝,要求数据中心全年断网时间不能超过2小时,故障等级分为四级:P1~P4。P1是最严重的故障,P4最轻微。如果频繁出现P1故障,那么PE团队人员的收入都会受到损失。因此,PE团队时刻都保持了如履薄冰的心态,应对每一次突发问题。其实在任何一个数据中心都一样,我们在享受数据中心带来的生活、工作便利的同时,在其背后是有无数的技术工作者提供运维保障,正是这些默默无闻的运维人员辛苦的工作才构筑了我们今天美好的生活。 责编:王雅京 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 专家专栏 |
|