|
飞天5K实战经验:大规模分布式系统运维实践
2013年,云梯1实现空间优化与跨机房集群扩展,云梯2单集群规模从1500台升级到5000台,同时跨集群扩展的5K项目顺利取得阶段性成果,阿里成为第一个独立研发拥有这类大规模通用计算平台的公司。
a) 整个集群是否有特定错误;
b) 每天针对segfault、oom和cgroup进行离线统计,根据具体segfault事件定位具体的内容和机器,如图1所示。
通过SLS的各项指标和Log分析,对集群的整体性能、QPS和流量等是否符合预期、作业/文件/Slave上的存储单元的生命周期是怎样的,这些宏观状态和微观细节都有完整的把握,进而帮助我们全面掌握分布式系统的情况。
这项简单日志服务SLS不久前已通过阿里云对外公测,每个用户可以免费创建1个项目,并能使用不超过10M/s的写入流量(感兴趣的读者可以登录http://www.aliyun.com/product/sls了解使用)。
不断完善的AliMonitor监控系统
面对上万台机器,好几十个模块,几十万个监控项,想要了解哪些机器监控项缺少、 哪些机器监控项异常、今天有哪些监控项报警、报警了多少次、团队中每个人每天收到多少报警、哪些是可以系统自动处理不报警的等,都需要从监控数据入手,真正对整个平台的监控有直观而全面的了解,并在数据的指导下持续完善监控系统。
大规模的
互联网公司都极其详细地定制化监控需求,阿里也不例外,我们基于多年的运维经验自主开发了一套监控系统AliMonitor,并且根据业务需求不断进行优化和完善。Alimonitor是一套统一的分布式监控平台,支持系统监控、
网络监控、客户端监控、容量监控、 趋势监控等,能自动添加基本监控,对服务器、虚拟机、应用VIP、网络设备、Java应用等能提供准实时预警、报警,从数据采集到发出报警仅需要5秒钟,让运维人员第一时间掌握服务的健康状况。同时,它还具备多种故障预测及发现方式、丰富的数据图表展示、容量规划和报警,以及视图的定制等功能。
开发和运维需要更加紧密合作
和传统的业务系统相比,分布式系统规模大和复杂性高,需要开发和运维更加紧密地合作。从运维人员的角度来看,运维就是对线上生产系统负责,是线上系统的Owner,要全面且深入地了解产品。从开发人员的角度来说,如果对运维工作一无所知,那么也很难开发出可靠的产品。因此,如果开发人员和运维人员之间存在壁垒,显然会大大影响产品的稳定性。需要注意的是,这不是要模糊开发人员和运维人员的职责,双方仍然要保持明确的分工,但在技术技能上,双方应该更加靠近。例如,在飞天5K项目中,运维人员和开发人员紧密合作,用最短的时间开发完成了自有的大规模部署系统(大禹)和异常故障自动化处理系统(华佗)。而且在共同工作中,双方都收获甚丰。
结语
对于阿里这种规模的互联网公司而言,随着体量越来越大,用户数量和基础设施投入都在快速膨胀,数据也在呈几何倍数增长。因此,在运维工作上已很难找到其他企业的成功经验来借鉴,但又不能凭空揣测解决方案,因为一旦判断失误,就会给公司造成巨大的损失。在这种情况下,我们深刻感受到只有一条通路:通过对真实数据进行分析和预测,将判断失误的概率降到最低。我们相信,只要数据真实并且挖掘得足够深入,一定能找到最优的解决方案。例如,在日常运维中,我们已可以收集到不同通道的数据,如服务器温度、负载、磁盘、应用状况等,而且数据种类和数量都在不断增加。如果能够找到其中的联系并快速分析,将会给我们的工作带来更大变化。而基于技术分析优化运维水平,将是一个值得持续探究的课题,也是我们团队一个比较大的挑战。
责编:李玉琴
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
推荐圈子
|
|