当前位置：首页> 存储> 大数据> 正文

干货：如何计算用户行为大数据

来源：互联网

2014/3/13 9:42:34

大中小

用户行为类数据是最常见的大数据形式，比如电信的通话记录、网站的访问日志、应用商店的app下载记录、银行的账户信息、机顶盒的观看记录、股票的交易记录、保险业的保单信息，连锁超市会员的购物信息、交通违法信息、医疗就诊记录。

分享到：新浪微博腾讯微博

本文关键字：大数据用户行为

将数据事先按用户排序，不同的计算目标都使用同样排序好的数据。将排序的时间花在前面而且只花一次，这就可以避免计算时的大排序，参数不同的同一个计算目标也可以重复计算而不必重复排序，不同的计算目标还可以省去相同的排序过程。

但是，不幸的是，一般的计算工具难以实现上述算法，无法有效利用事先排序的数据。比如SQL(含Hive)和MapRreduce。

SQL的困难。SQL的集合是无序的，事先按索引重新插入排好序的数据往往不能被优化器正确优化，具有很大的偶然性，无法保证查询时可以按排好的次序查询出需要的数据。

Hive具有SQL的语法风格，同时也支持并行计算，但它却并不适合用户行为类大数据计算。这是因为用户行为的计算较为复杂，需要窗口函数甚至存储过程来解决，而Hive只支持基本的SQL语法，不支持窗口函数和存储过程。

用户行为的计算之所以较为复杂，是因为需要对同一个用户的多条数据之间进行计算，这种计算大多和顺序相关。SQL对有序计算的支持有限，只有窗口函数可以实现部分简单的有序计算，但对于复杂的业务逻辑仍然显得非常繁琐，而且经常因为大排序造成低下的性能。使用程序性的存储过程编写复杂代码可以实现复杂的有序计算，但很难复用SQL的集合运算能力，所有处理都有从基础运算自己编写，而且其性能通常比SQL更低。

MapReduce的困难。MapReduce支持大数据并行计算，同时它是用程序性的JAVA语言来编写的，这一点和存储过程有相似性。但是，MapReduce所使用的 JAVA语言缺乏针对结构数据计算的类库，所有的底层功能都要自己实现：分组、排序、查询、关联等等，对于有序计算这较复杂的算法所要书写的代码更多、编写难度更大、维护更加困难。同样的，MapReduce也无法利用已经排序好的数据，在shuffle阶段还需要得做大排序。

SQL和MapReduce无法利用事先排序好的数据，难以高性能地将同一用户的所有数据加载到内存中来计算，用户类大数据计算因此会遇到性能、扩展性和开发难度的挑战。

共3页: 上一页 [1]2 [3] 下一页

责编：郑雄

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

干货：如何计算用户行为大数据

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。