|
微软存储服务性能更新导致Azure故障
上周微软Azure近11小时的故障是由于微软升级Azure存储服务的性能导致的,企业副总裁解释了这次故障的原因,并对所有受影响的Azure用户道歉。微软立刻回滚了更新,但仍需要重启存储前端来彻底恢复。
上周微软Azure近11小时的故障是由于微软升级Azure存储服务的性能导致的,微软Azure企业副总裁Jason Zander解释了这次故障的原因,并对所有受影响的Azure用户道歉。 美国太平洋时间11月18日晚,美国、欧洲和亚洲部分Azure用户存储和网站服务无法访问,部分Xbox LIVE用户无法联机,微软MSN.com网站、Visual Studio Online和搜索也得到了影响。更糟糕的是,Azure服务健康状态(Service Health Dashboard)和Azure管理门户(Management Portal)都依赖于Azure存储服务,这两款服务都没有正确地显示Azure的状态,在Azure故障的时候,页面显示服务状态为正常。 尽管微软已经测试了几周这次的Azure存储服务的性能更新,但直到微软部署到Azure上才意识到“有一个问题导致存储二进制大对象前端进入无限循环”的问题。Jason Zander表示,“结果是前端无法承接进一步的流量,反过来又导致建立在它之上的其他的服务出现问题。” 微软在发现问题后,立刻回滚了更新,但仍需要重启存储前端来彻底恢复。根据官方故障报告,“这次故障已经被大范围扩散,由于操作失误更新在短时间内快速部署到了大部分数据中心,通常这一生产环境的部署是渐进部署的”。 Zander表示,结果是一些客户仍然会遇到“间歇性的问题”。他表示,微软的工程师们正在和这些客户一起解决这些难缠的问题。 Jason Zander也承诺尽可能避免再出现此类故障: ● 确保部署工具强化应用产品变更的标准协议,在产品更新的过程中使用渐进式部署。 ● 改进恢复方法,尽量减少恢复时间。 ● 修复存储前端无限循环Bug,然后再部署到生产环境。 ● 改进服务健康状态架构(Service Health Dashboard Infrastructure)和协议。
责编:李玉琴
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|