UBDC全域大数据峰会:跨屏打通之后的数据链接

来源: kaiyun体育官方人口
2016/4/20 22:32:31
4月20日,UBDC全域大数据峰会·2016在北京举办。Drawbridge总监、数据科学负责人在"无数据不智能"的主论坛上,分享了技术如何联结数据。李想分享了强账号体系和跨屏联结两个概念。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 Drawbridge李想

4月20日,UBDC全域大数据峰会·2016在北京举办。会议以"无数据不智能"为主题,除主论坛之外,分别设立了"数据化运营"、"数据营销"、"IOT和O2O数据应用"、"数据开放与发展纵横谈"四个平行分论坛。

Drawbridge总监、数据科学负责人在"无数据不智能"的主论坛上,分享了技术如何联结数据。李想分享了强账号体系和跨屏联结两个概念。

李想认为,强账号体系是封闭的,譬如腾讯账号在腾讯体系内是可行的,但是用户一旦脱离了腾讯环境。后面的情况就不得而知了。

而实际上,如果每一个用户都可能拥有很多设备,这些设备有可能有各自不同的使用场景和使用习惯。但是属于同一用户的话,用户在这设备上会有一定的相关性,如果我们观察数据的面足够广,数据的量也足够大,从一定程度上我们是有这个可能发现这些数据其实是一个人的。

李想在大会上分享了三个利用跨屏连接数据的案例,以下为李想在UBDC全域数据峰会·2016中分享的演讲实录:

有什么最大的变化,我说应该是有各种各样的基于用户的互联网设备的促进,比如从最早智能手机开始,后来出现智能电视、智能手表,甚至有物联网,这种设备的出现对终端用户来讲是激动人心的事情,因为他们可以在任何时间,任何地方,用很多方式获取他们想要得到的信息。另外一方面,对很多企业来讲,这些大的互联网设备出现引起了一个新的问题,我们知道很多企业最终的目的是要把产品卖给客户,很多时候这个企业的产品跟客户所拥有的移动设备的数量没有关系。比如这是一个化妆品公司,他的任务是把他的化妆品卖给他的客户,他不会说他的客户是拥有3、2台电脑会比没有电脑,拥有2台手机的客户买的化妆品多。在这种情况下,用户获取信息的途径比较简单,报纸、电视,从现在看,这些渠道是一个非常粗暴,最原始的方法,它对客户没办法做个性化的推送。这也有一个好处,因为客户的意志力会比有限的渠道里,他做的事情非常简单,我把广告,投放到有限的渠道里去,就可以直接影响到这个客户的购买行为。

现在随着各种各样的移动互联网设备出现,用户的行为发生了翻天覆地的变化,首先用户获取信息的途径是千千万万,电脑、手机、平板,这是一个最大的变化。

从大的方面讲,应该有两种方式,另外一种是我花比较多的时间是基于概率的领域。首先是强帐号体系,开放的挑战,看用户是不是用同一个账户登录。我们总结一下,这些设备有可能有各自不同的使用场景和使用习惯。但是属于同一用户的话,用户在这设备上会有一定的相关性,如果我们观察数据的面足够广,数据的量也足够大,从一定程度上我们是有这个可能发现这些数据其实是一个人的。

下面从技术层面做一些相对深入的分析,首先把这设备把概念连接起来,它一定是一个大数据系统,唯一能够知道哪些设备是属于同一方法,我们把观察到的设备拿到这个系统来。比如举个应用场景,PC端跟移动互联网的连接,把我们能观察的PC端的标识和移动端的标识拿在一起,我们对这个数据做大量的沉淀、梳理、处理,两个设备之间的标识。换句话说,这相当于大海捞针的过程,整个系统的输出是比较少的数据量,但是它的数据一定是海量的数据。

举一个实际的例子,我们一个处理600亿次的系统。这个系统大概是怎么工作的?一般分成三个模块,第一个模块是海选系统,它把所能观察到的PC端和移动端的数据拿过来,我尽量产生一个有可能的配对,这是什么意思?这些配对有可能是属于同一个用户的,在海选阶段有两个特点,第一个特点,它处理的速度应用非常快,如果你处理速度赶不上数据进来的速度,会有很大问题。第二个特点,它对配对的质量有所要求适当的放松。但是我们希望属于同一个人的设备中尽量在海选阶段保留下来。第二个阶段是我们把海选的结果拿过来,进行精选的阶段。在这里我们会做这样的事情,我们会对海选的结果提取一些非常复杂的特征,我们会用相对计算量非常复杂的模型,他们所谓做这些事情只有一个目的,我们希望对海选的配对产生一个分,配对正确的标识分出的越高越好。我们可以做一些其它的处理,比如排序等等,所以目的只有一个,尽量把错误的配对删除,或者打一个很低的分,把可能属于同一用户的配对的分值提上去。

在一般这种情况下,对我们将近一半的客户,精选的量的结果就足够了,他们需要的东西很简单,比如PC端跟手机的配对,但是对我们另外一半客户,他们需要更苛刻或者复杂一些,你能不能对我们的客户所有移动的标识,我们需要做的聚类的处理模块,我们把前面两块的结果拿过来,先产生一个图,如果你做图的话,肯定会有结点。这里面结点是各个设备的标识,比如PC跟移动设备的标识。

有这样的结果以后,我们下面谈具体的应用的例子。第一遍是我们要做完整的用户画像,这是真正的用户,但是他的照片是我加的,我不知道这个用户长什么样。我们知道用户的地理位置,在纽约,他的年龄、收入情况等等,我们也知道他线下的一些活动,通过我们这个数据打通,我们掌握了这个用户在PC端、移动端,以及智能电视上面的画像,通过这个分析,我们会发现这个用户在这三个不同设备的画像,他们都是提供了一些非常独特的信息,比如我们看到这个用户是一个服装设计师或者搞艺术的工作者。如果你看用户在移动端的画像,会发现这个用户是相对比较时尚,有很多社交的活动,对游戏有一定的偏好。如果我们看这个客户在电视上的画像就更有意思,这个客户虽然是做服装设计,他特别喜欢跟户外有关的频道,比如发现频道等等,这实际是一个更好的例子,有可能把一个服装设计师跟喜欢户外的人连接在一起,对用户有全面的了解。

有了这个画像之后,具体的应用就出来了,今天我大概会介绍三个具体应用的例子,第一个是,定义延伸,最后一个跟大家分享我们跟智能电视互动的应用。

这个是我们在跨屏定向里比较好的案例,跟美国的信用卡公司合作。广告投放的渠道主要是在PC端,原因很简单,使用信用卡的话,你要填比较复杂的表格,而且这个对用户人群是有一定要求的,比如他对你的性别、年龄、家庭构成等等,最重要的是他对你的收入是有一定的要求。而且还有一个情况,在过去几年里,在PC端能满足他要求的货客,逐渐减少,大家也很奇怪,过去几年美国经济并没有几年变差,那用户怎么会变少呢?原因很简单,客户是在从移动端向PC端转移,这数量自然就减少,我们的解决方案很简单,打通完以后,我们把移动端的用户画像附加你在PC端的用户画像,对完整的用户画像做投放,申请信用卡的用户和被批准的用户增加25%,这个事很显著,每申请一张信用卡,给公司带来的收益是很大的。

第二个案例地理延伸的案例,我们发现客户到他们门店那里去并没有做购买和转化的工作。我们更大的解决方案,你把到你门店的用户的手机信息告诉我,我拿到这客户的手机信息之后,做了一些处理,用户从移动端转化的概率提高了600%,非常可观。

下面是我们跟智能电视的合作,这是我们跟一个游戏公司合作,使得他们游戏量上升了几分之几百。

最后,用户隐私的保护。在美国,它对用户隐私保护的非常严,从法律上,它要求很多企业对客户必须提供选择性排除这样的方法,我不管你广告再精准,你别来烦我。

企业的话,我们讲最后一个例子,我们很多客户企业有很好的第一方数据,这第一方数据是高质量的,企业用这些数据做很多事情。但是不幸的是美国规定这第一方数据是不能拿出企业的,怎么办?我们把技术和解决方案直接部署到企业内部,你用你的数据和我们的解决方案做跨屏的连接,过几个月之后,他们跑过来说你们做的这效果不错,就是规模比较小,能不能帮帮我们。这是另外一个解决方案,把我们搜集过来的第三方数据在法律允许的范围内,把这同时给我们的企业客户,他用他的第一方数据,加上我们第三方数据,加上我们这程序,在他内部进行部署,用户很高兴,效果也很好。

责编:胡雪妍
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map