|
百度陈尚义:百度新存储系统应对大数据挑战
近日,百度技术委员会理事长陈尚义应邀出席第四届中国云计算大会“云计算与大数据专题论坛”。
近日,百度技术委员会理事长陈尚义应邀出席第四届中国
云计算大会“云计算与大数据专题论坛”。同时出席论坛的还有电子学会名誉理事长、原信息产业部部长吴基传,中国电子学会副理事长刘汝林,北航计算机学院院长吕卫锋等产业界高端专家、学者。
陈尚义在论坛上作题为“百度大数据挑战及应对”的主题演讲,从百度的数据特点及对存储系统的要求出发,介绍了百度存储系统的先进性。
“百度储存和处理的数据主要包括:网页和超链的数据量、日志、数据仓库、广告数据、UGC(用户创造的数据)” 陈尚义绍了百度的数据特点,并用“海量”和“复杂”来形容百度数据特点。“百度拥有的数据总量上百PB,日处理量达几十PB,且呈现高速增长的态势。而且,这些数据的特点是,结构化与非结构化并存,系统数据对数据一致性要求强弱程度不同,用户对数据的访问行为存在不确定性,即在毫无征兆的情况下,对某些信息进行突发式访问等。这些特点使得百度要应对复杂的存储要求。”
如何应对这样的挑战,陈尚义通过解析百度的云储存架构及优势,为与会嘉宾解开了疑惑。其中,陈尚义特别指出,百度对存储系统做了全局优化,包括针对访问模式的优化、针对硬件特性的优化、依访问模式定制硬件、提升单机性能、与CDN系统实现更优结合。
“比如,在硬件特性优化方面,百度对单机的硬件(CPU、内存、硬盘、
SSD等)进行合理配比,以实现单机资源的充分利用。”陈尚义解释说,“又如,在与CDN系统实现更优结合方面,百度将最常被访问的数据自动缓存到距离用户最近的数据中心。”
在介绍百度储存优势时,陈尚义还介绍了李彦宏发明的超链分析技术。“这一技术早在1999年就被授予了专利,比Google创始人佩奇申请的Pagerank专利还早,是搜索引擎产业发展的基石。原中国计算机学会理事长、中国工程院院士李国杰先生称赞‘李彦宏在推动计算技术和产业的发展中做出了可载入史册的历史性贡献’。”
责编:赵龙
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|