手机上的大数据:手机上的阅读

来源: 雷锋网作者:中关村老李
2012/10/30 15:21:28
在移动互联网所覆盖的日常生活中,用户随时随地都在产生数据,数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。

分享到: 新浪微博 腾讯微博

下面,我们以一个曾经做过的手机阅读项目为例,主要从发现问题、解决问题、结果验证三个方面来为大家展开。

发现问题

通过对手机阅读数据的挖掘分析,我们发现了如下几个问题:

(1) 城市与城市之间的阅读行为相似

我们统计过杭州、广州、深圳在某一时间段内用户的阅读数据,得到了这三个城市这三个月热门前二十的数据。

下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。

三月 四月 五月
杭州VS深圳 杭州VS广州 杭州VS深圳 杭州VS广州 杭州VS深圳 杭州VS广州
前十 9 9 4 4 2 8
前二十 13 10 8 8 9 14

从表中,我们可以猜测,杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。

计算公式为:Sim(A,B) = Same(A,B)*2/[Count(A)+Count(B)]

Sim(A,B)表示的是城市A,B的阅读相似性。Same(A,B)表示的是城市A,B在某时间段内共同阅读过的图书的本书,Count(A)表示的是城市A在某时间段内阅读过的图书的本书。

从表中我们可以发现杭州与深圳广州的阅读相似性都很高。也就是说杭深或者杭广城市间阅读是比较相似的,我们可以考虑用他们来作为阅读风向标的参考城市。

所以,如果考虑要做风向标分析的话,更倾向于选择广州作为杭州的阅读风向标,杭州作为深圳的风向标,杭州跟广州可以互相参考。

(2) 移动阅读的“长尾”现象严重

在我们的数据统计中发现,手机阅读市场基本上靠热榜和主观推荐来运营。这就造成了我们所常见的“长尾”效应,而且随着书籍的增多,这种效应更为严重!

(3) 不同行为模式的用户表现相差比较大

我们通过kmeans聚类算法(一种常见的数据挖掘算法),说明各类用户之间表现的特征差异还是比较明显。

不同行为模式的用户表现相差比较大

解决方案

我们针对历史数据进行了分析,对于不同的问题,我们觉得可以采用如下方法进行解决。

(1) 数据聚类推荐送

通过对用户进行聚类推送图书,我们发现有如下结果:

数据聚类推荐送

第一类:人群比例接近60%。这类人群一直有阅读推荐书的行为(平均约e^1),在6月14号当天PV量并没有提升,而在后面几天提到较明显的提升,6月20号之后似乎又回到了之前的PV水平。

第二类:人数较少,仅57人。在推荐前基本无阅读推荐书行为,而在推荐后阅读推荐书PV量较大(平均e^2),且后续也有较好的保持,可以认为被推送激发了阅读推荐书的兴趣。

第三类:人群比例接近40%。这类人群在6月13-17号之间阅读推送书籍的PV量提升非常明显,但是在这个时间段之外,比较沉默,前期(6月13号前)阅读推荐书很少,后期(6月17号)阅读量有些提升,但是还是回归到比较沉默状态。

(2) 个性化推送

由于手机的推送方式,目前大多数是通过流行榜来推荐,这就造成了这些被推送的书籍越流行,后面越推送他。反复的循环下去,就造成了系统长尾现象,数据覆盖率等问题。所以最好是根据不同的用户设置不同的推荐方法。这样可以大大改善系统中这些状况。

结果验证

通过我们对数据的挖掘处理,然后用户实际应用,最后得到了如下的反馈结果:

(1) PV量的增加

首日PV比较

从实验分析中,我们得出:总的一周反馈率,实验组是对照组的1.30倍。

推荐成功用户首日推荐书籍PV总量,实验组是对照组的8.17倍;人均推荐书籍PV量,实验组是对照组的15.19倍。

推荐成功用户首日总激发PV量,实验组是对照组的9.62倍;人均全部书籍PV量,实验组是对照组的17.88倍。

推荐成功用户中,实验组的一周推荐书籍PV总量约为对照组的5.45倍;人均推荐书籍PV量,实验组是对照组的4.88倍。

推荐成功用户中,实验组的一周总激发PV量是对照组的7.01倍;人均全部书籍PV量,实验组是对照组的6.28倍。

综上所述,经过数据挖掘、分析、推荐等算法的处理,手机阅读的各项指标得到了大幅的提升,其效果已经不是百分之几十的提高,而是成倍地增加了!这就是大数据应用的魅力!

共2页: [1]2 下一页
责编:毋小艺
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map