当前位置：首页> BI-商业智能> BI评论> 正文

eBay上海大数据峰会：技术热点与应用实践的融合

来源： CSDN作者：刘亚琼

2014/11/5 15:09:17

大中小

2014年10月25日，由eBay、CSDN共同举办的“大数据峰会”在上海豫园万丽酒店成功举办。以更加国际化的视野，帮助与会者了解全球大数据技术的发展趋势，探讨大数据领域的实践经验，深度剖析大数据的核心技术。

分享到：新浪微博腾讯微博

本文关键字：大数据 eBay 数据分析数据架构

eBay全球数据架构副总裁Debashis Saha则发表了题为“大数据基础架构的未来”的演讲。如今有五分之一的美元是花费在网上，eBay已经不仅仅是一家连接买家和卖家的电子商务公司。eBay目前有1.28亿的活跃用户，Paypal有1.43亿活跃账户，200PB以上的数据。几年前，Hadoop的出现为这些大数据的处理提供了可能。Debashis首先介绍了eBay如何在Hadoop的基础上，扩展平台和工具，来适应大数据商业的需求，在eBay的生态系统中，分为三层：Infrastructure，Platform和Services。接下来，Debashis介绍了eBay在深度数据分析和快速、实时分析方面所做的工作，包括对开源社区的贡献。

国立台湾大学卓越教授林智仁，作为作为机器学习的研究者，带来了“大规模分布式机器学习”的分享。分布式机器学习还在很初期的阶段，其带来的最大挑战是：以前在一台机器上的算法、工具等都已经基本失效，要考虑算法、系统和应用等各个方面，但也有人说大量的数据中能够更容易挖掘出有效数据。从技术角度来说，分布式机器学习的优点是：1.可实现并行数据加载，提高加载效率；2.容错机制。但分布式机器学习也有缺点：深度分析使流程更加复杂。如果真的要采用分布式机器学习，就要考虑数据的计算时间，加载时间和同步时间，而在过去的机器学习中，大部分场景中却只考虑了计算时间。最后，林智仁介绍了几个分布式机器学习的算法及其应用场景，比如Logistic Regression问题的分布式实现，Google的Sibyl系统，并以用户的CTR预测应用场景进行了说明。

Druid创始人Eric Tschetter接下来发表演讲“Druid之旅，大数据实时分析数据存储框架”的演讲。Eric以一个Demo开场介绍了Druid。Druid是一个开源的、实时处理数据库，主要用于数据量较大、多维度数据的场景，满足不宕机的数据分析需求，在Druid之前，他们尝试过RDBMS（加载速度过慢）、NoSQL存储（随着维度的增加，效率降低），由于各种缺陷开始了Druid的开发。Druid将历史数据和实时数据分开，Realtime Nodes、Historical Nodes，还有Broker Nodes，再将两者进行合并处理。接下来Eric详细介绍了Druid的数据存储形式和处理方式。

eBay全球平台架构资深架构师Sami Ben-romdhane详细介绍了“Eagle：Hadoop平台监控、预警及自动化”的实践经验。eBay的Hadoop平台团队，包括9位中国工程师和11位美国工程师，Eagle完全由中国的团队开发。eBay的Hadoop节点从2007年的几个，发展到2014年的10000个，Hadoop集群的管理成为难点，Eagle应运而生。Eagle的应用场景包括监控M/R作业，作业性能的分析，服务器异常检测，管理SLA作业，监控节点审计日志，监控HDFS镜像，监控进程GC日志等。Eagle的主要组件包括Eagle Data Feeder，Eagle Logstash Integration，Eagle Data Storage，Eagle Query Service，Eagle Anomaly Detection，Sami分别对其做了详细解说，并介绍了Eagle完全由中国团队开发完成。

EV Analysis Corporation首席数据科学家Ying Li则分享了数据科学的实践。Ying Li首先介绍了数据科学的定义和自己多年积累的实践原则：Question，用问题指引工作；Unknowns，知道你的盲点；Explore，从不同角度看数据；Scrupulous vs. Speed， Science vs. Scrappiness；Truth，数据和现实的关联。认为数据科学的一个重要性质是可重复性，而评价数据科学家的一个重要指标则是其代表作。

CSDN云计算日前翻译的《Kylin正式发布：面向大数据的终极OLAP引擎方案》引发了开发者对麒麟（Kyllin）极大的兴趣。eBay资深架构师蒋旭对刚刚开源的技术Kylin——基于Hadoop的大规模联机分析引擎，进行了深入的分析。随着eBay大量数据都迁移到Hadoop上，如何读取数据？如何达到百亿数量级的数据，秒级时间内就能收到数据分析结果？而Hive又太慢了，eBay开发了Kylin来完成这个任务。对于开发者关心的“现在已经有很多SQL-on-Hadoop技术了，为什么还要重复造车轮？”这个问题，蒋旭详细分析了现有系统的问题，多数选择ROLAP的模式，数据集一大，查询延迟特别长。为此，eBay选择了MOLAP和ROLAP的混合模式，并坚持尽量使用Hadoop已有功能的原则，Kylin支持ANSI SQL查询。并能与现有商业智能工具无缝的整合，比如Tableau。支持TB到PB级别的快速查询能力。麒麟（Kylin）是完全由中国团队研发并贡献到开源社区的产品，目前正在提交到Apache孵化器项目。

腾讯数据平台部精准推荐中心总监李勇则以“腾讯大数据平台与推荐应用架构”作为峰会的结尾。腾讯的月活跃用户8.3亿，微信月活跃用户4.4亿，QQ空间月活跃用户6.5亿，游戏月活跃用户过亿。如今腾讯的数据分析已经能做到始终“不落地”，即全部的实时处理。腾讯大数据平台有如下核心模块：TDW、TRC、TDBank、TPR和Gaia。简单来说，TDW用来做批量的离线计算，TRC负责做流式的实时计算，TPR负责精准推荐，TDBank则作为统一的数据采集入口，而底层的Gaia则负责整个集群的资源调度和管理。李勇还特别强调了数据平台体系化是应用基础，数据应用商业化是价值导向。

本次大数据峰会是一次数百名业内人士齐聚的深度技术实践之旅，通过业界顶级专家的技术分享，帮助数据分析人员、数据科学家们，走出原先的框架看看新技术新架构下的技术实践，不要总是桎梏于传统的思路和方法。同时本次大数据峰会希望可以利用专业知识和行业经验，帮着那些”求大数据若渴“的行业用户们好好定位下对他们真正有价值的新应用场景，设计更多的有意义的分布式算法和机器学习模型，真正帮助他们解决大数据应用之惑。

更多内容详见 eBay上海大数据峰会2014

责编：李玉琴

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

eBay上海大数据峰会：技术热点与应用实践的融合

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。