现在,阿里巴巴成功实施的飞天5000集群,不知道他做何感想?阿里云梯1的跨机房实施方案,有Facebook和Google这两位唯一的先行者,但他们没有公布细节,阿里得靠自己摸索。而云梯2从1500直接扩容到5000台并且实现跨机房,FB和Google也会致敬。
因为这确实很难。大规模集群对容错性、网络通信、调度和存储性能、可运维性、稳定性、预防脏数据甚至硬件能力都带来挑战。跨机房的集群由于突破了物理空间的限制,对上述要求又提高了一个级别。而阿里所承载的电商和金融业务的性质,对于状态同步、数据干净和业务健壮要求更高。需要在保障生产的前提下顺利完成扩容和数据迁移,又增加了难度系数。
这需要创新的架构设计,针对其开发新的服务器软件,并为之制定专属的项目实施方案。一旦实现跨机房,便可以突破了5000台的容量天花板,建设一个超大规模的离线存储和计算集群。
业界已经有成熟的集群服务器架构和软件,Hadoop,并且是开源的。不过,Hadoop生态圈还没有成熟的大规模集群跨机房解决方案。阿里必须亲自动手。最后,阿里升级并发布了Apsara 0.11版本,该版本是支持5000台规模并达到生产标准的第一个飞天版本,同时支持跨集群计算。
设计新架构、开发新版本Apsara、完成服务器采购、部署、数据迁移等,阿里云团队一共只用了3个月。看上去不可能完成的任务,阿里云能完成验证了它在云计算上的技术实力。事后,Facebook Hadoop团队发邮件邀请阿里云同学分享跨机房集群的经验。谁敢再说中国云计算是只花钱采购但计算实力不强的土豪?
阿里之所以如此重视云端平台,与其在移动互联网时代的战略有关。
一方面,阿里也是All In移动电商的战斗状态,而云+端是不可分割的,云是移动的一部分。另一方面,阿里的“金融+数据+平台”对云也提出刚性需求。
金融的本质是数据的处理交换,而阿里拥有全球最大的商品、用户、交易数据库;全球最大的支付平台,信用体系,是不折不扣的大数据公司,这需要云平台来承载。
阿里在大数据上的思路也是建设平台,建设数据交易市场,做大数据流通的管道。平台战略则意味着,它不只是可以将电商、金融、信用这些数据以合理的形式开放出来,还可以让其他拥有数据的企业提交数据到其平台进行流通、共享和交易。它要做大数据的市场,只有云才能承载这些“大数据内容”。
从基因来看,阿里成为云计算老大也很合理。
亚马逊,美国的电商巨头,是IaaS(基础设施即服务)的奠基者,也是云计算的先驱。它做云计算的初衷便是,需要为了促销订单峰值扩容服务器,但平时这些计算能力是闲置的。云计算则可以将这些计算能力分享出去。
阿里的云平台是它发达的电商业务必然伴随的附加品。现在看来这个附加品的价值正在日益成长,成为阿里在移动时代的核心竞争力之一,成为移动互联网十分重要的基础设施,也是中国在云计算领域技术实力大幅提升的表现。
责编:王薇
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友