手机上的大数据:手机上的阅读

来源: 雷锋网作者:中关村老李
2012/10/30 15:21:28
在移动互联网所覆盖的日常生活中,用户随时随地都在产生数据,数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。

分享到: 新浪微博 腾讯微博

在移动互联网所覆盖的日常生活中,用户随时随地都在产生数据,数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。

手机大数据的组织与应用

手机上的大数据对于移动互联网业务早期无疑具有非常大的指导意义,但并不是所有的手机上产生的大数据都会那么有意义。比如说社会媒体—微博,每天也会产生大量的数据,但多数都是没有意义的。

手机大数据的组织与应用

手机上产生的大数据需要重新组织方能揭示出有意义的信息。

在现今的时代,大数据本身不是问题,你从各个渠道都可能获得海量的数据;我们每个人每天都要生产很大量的数据,关键的问题是如何处理、分析这些数据。数据不处理、不分析,就像Mary举的例子一样,就是一堆稻草,毫无价值。

稻草堆里寻针

数据处理、分析就是要从一大垛稻草堆里面挑出一根针。

这句话有两层含义:

无论我们从何种渠道,通过何种方式获得的数据,大量的数据是没有意义的,这其中只有少量的数据是有效地,可以从中得出一些有规律、有价值的信息的,原始数据需要清洗、整理;(这一点对于移动互联网更为明显,一般来说,几乎80%-90%的移动应用数据都是毫无价值的,只有不到10%-20%左右的数据才包含后续分析所需要的信息)

我们需要通过后续的数据挖掘的工作,从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针,而非一根稻草!这显然,不是简单通过统计就可以得出的;是比统计分析更为复杂的算法,去从简单关联过度复杂逻辑的层面。

从上一章中,我们知道手机上的大数据的来源多种多样,不同的移动互联入口、不同的应用都会导致不同数据的产生,而这些不同的数据又支撑不同的业务,并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点,下面我们根据这些特点来对大数据的组织做一个简单介绍,手机大数据的组织方式可以采用如下图的结构。

手机大数据的组织方式

从上面的结构可以看出,手机大数据的组织主要分为以下三个部分:原始数据存储层,计算层和业务数据存储层

原始数据存储层

主要存储不同入口产生的数据,而不同入口不同数据域也分开并存此时各个数据集是彼此独立,数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性,正确性。

计算层

该层的主要任务是对原始数据存储层存取的数据进行挖掘处理,并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点:① 对不同数据域进行内部分析,挖掘。② 对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类,比如音乐、餐饮、广告等应用。

业务数据存储层

业务数据存储层主要是对计算层产出的数据进行分开存储,以为上层应用提供更明确的数据接口。

当我们对数据进行有效地存储管理后,我们就可以利用这些大数据进行一些有意义的工作,尤其是对于移动互联网业务早期无疑具有非常大的指导意义,下面我们以手机阅读为例,对手机上的大数据如何应用做一个说明。

手机上的阅读

手机阅读作为移动互联网目前为数不多还算有一定共性和沉淀应用之一,是我们早期手机应用研究的对象。所谓“共性”和“沉淀”,就是针对手机应用“碎片化”而言。手机阅读虽然也有大量的碎片时间,但已经逐渐形成了一早一晚宝贵的“床上”连片时间,有相对比较完整时间片上呈现的行为习惯,有相对比较完整的用户在移动互联网上体现出来的偏好信息。

尽管很多报告都显示,用户在互联网与移动互联网上的表征有着巨大的差异,但我依然相信,人们在面对一段文字,一个图片上的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同,那是因为应用本身使用场景的不同,解决问题的不同所导致的。并不是一个人在互联网上是一个性格,而到了移动互联网上就是另外一个人生了。

这是我们研究手机阅读上大数据的初衷。

共2页: 上一页1 [2]
责编:毋小艺
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map