当前位置：首页> 服务器> 技巧应用> 正文

飞天5K实战经验：大规模分布式系统运维实践

来源： CSDN作者：柯旻

2014/10/20 14:48:51

大中小

2013年，云梯1实现空间优化与跨机房集群扩展，云梯2单集群规模从1500台升级到5000台，同时跨集群扩展的5K项目顺利取得阶段性成果，阿里成为第一个独立研发拥有这类大规模通用计算平台的公司。

分享到：新浪微博腾讯微博

本文关键字：飞天5K 服务器

a) 整个集群是否有特定错误；

b) 每天针对segfault、oom和cgroup进行离线统计，根据具体segfault事件定位具体的内容和机器，如图1所示。

通过SLS的各项指标和Log分析，对集群的整体性能、QPS和流量等是否符合预期、作业/文件/Slave上的存储单元的生命周期是怎样的，这些宏观状态和微观细节都有完整的把握，进而帮助我们全面掌握分布式系统的情况。

这项简单日志服务SLS不久前已通过阿里云对外公测，每个用户可以免费创建1个项目，并能使用不超过10M/s的写入流量（感兴趣的读者可以登录http：//www.aliyun.com/product/sls了解使用）。

不断完善的AliMonitor监控系统

面对上万台机器，好几十个模块，几十万个监控项，想要了解哪些机器监控项缺少、哪些机器监控项异常、今天有哪些监控项报警、报警了多少次、团队中每个人每天收到多少报警、哪些是可以系统自动处理不报警的等，都需要从监控数据入手，真正对整个平台的监控有直观而全面的了解，并在数据的指导下持续完善监控系统。

大规模的互联网公司都极其详细地定制化监控需求，阿里也不例外，我们基于多年的运维经验自主开发了一套监控系统AliMonitor，并且根据业务需求不断进行优化和完善。Alimonitor是一套统一的分布式监控平台，支持系统监控、网络监控、客户端监控、容量监控、趋势监控等，能自动添加基本监控，对服务器、虚拟机、应用VIP、网络设备、Java应用等能提供准实时预警、报警，从数据采集到发出报警仅需要5秒钟，让运维人员第一时间掌握服务的健康状况。同时，它还具备多种故障预测及发现方式、丰富的数据图表展示、容量规划和报警，以及视图的定制等功能。

开发和运维需要更加紧密合作

和传统的业务系统相比，分布式系统规模大和复杂性高，需要开发和运维更加紧密地合作。从运维人员的角度来看，运维就是对线上生产系统负责，是线上系统的Owner，要全面且深入地了解产品。从开发人员的角度来说，如果对运维工作一无所知，那么也很难开发出可靠的产品。因此，如果开发人员和运维人员之间存在壁垒，显然会大大影响产品的稳定性。需要注意的是，这不是要模糊开发人员和运维人员的职责，双方仍然要保持明确的分工，但在技术技能上，双方应该更加靠近。例如，在飞天5K项目中，运维人员和开发人员紧密合作，用最短的时间开发完成了自有的大规模部署系统（大禹）和异常故障自动化处理系统（华佗）。而且在共同工作中，双方都收获甚丰。

结语

对于阿里这种规模的互联网公司而言，随着体量越来越大，用户数量和基础设施投入都在快速膨胀，数据也在呈几何倍数增长。因此，在运维工作上已很难找到其他企业的成功经验来借鉴，但又不能凭空揣测解决方案，因为一旦判断失误，就会给公司造成巨大的损失。在这种情况下，我们深刻感受到只有一条通路：通过对真实数据进行分析和预测，将判断失误的概率降到最低。我们相信，只要数据真实并且挖掘得足够深入，一定能找到最优的解决方案。例如，在日常运维中，我们已可以收集到不同通道的数据，如服务器温度、负载、磁盘、应用状况等，而且数据种类和数量都在不断增加。如果能够找到其中的联系并快速分析，将会给我们的工作带来更大变化。而基于技术分析优化运维水平，将是一个值得持续探究的课题，也是我们团队一个比较大的挑战。

共3页: 上一页 [1] [2]3 下一页

责编：李玉琴

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

飞天5K实战经验：大规模分布式系统运维实践

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。