数字新闻读者的“大数据”蕴藏巨大价值

来源: 网易科技
2012/9/24 15:06:42
《卫报》网站近日发表文章称,在其它行业得到有效利用的“大数据”同样适用于数字媒体行业,读者的“大数据”蕴藏着尚未被挖掘的巨大价值,行为数据可用于使得新闻服务更能吸引读者,并为内容发行商带来更大的收益。



分享到: 新浪微博 腾讯微博
本文关键字: 大数据 数字新闻

《卫报》网站近日发表文章称,在其它行业得到有效利用的“大数据”同样适用于数字媒体行业,读者的“大数据”蕴藏着尚未被挖掘的巨大价值,行为数据可用于使得新闻服务更能吸引读者,并为内容发行商带来更大的收益。

数字发行的价值被严重低估。其广告业务尚未发挥出它的潜力——它在网络上出现了显著衰落,在移动平台也未能取得成功。很多数字内容发行商都无法留住读者,一个月下来读者仅仅看了十来篇文章,阅读时长仅为30分钟左右。大多数知名公司在数字新闻行业的发展停滞不前,ARPU(每用户平均收入)值只有单位数。人们确实是涌向数字阅读,但财源却不是随之滚滚而来——至少所带来的收入还不足以维持优质内容的持续出产。

这种状况的难题在于:如果发行商无法获得比现在要高得多的每用户平均收入,它们当中很多都将无法存活。因此,大多数的人——除了少数受过良好教育的有钱人——都将依赖于流量很高但只有肤浅的商业新闻摘要的网站来获取信息。

解决方案其实就在发行商的眼前:读者的个人资料和其浏览的内容,以及它们与互联网“噪音”之间的对比。这些是尚未被挖掘的最大价值来源。

提取这种价值涉及“大数据”问题。什么是“大数据”呢?答案非常简单,就是指无法被传统数据库管理工具吸收和分析的庞大数据集。其实一开始我对该概念是持怀疑态度的,感觉它听起来只不过是苦于重振自身衰落品牌的IT巨头所制定的市场营销概念。但见过具有实践经验的人之后,不管他们来自大企业还是只有20人的创业公司,我的想法发生了改变。

他们从事的是有形的东西,致力于收集来自汽车或者飞机的数据流,并进行实时处理,在一些情况下还将它们与其它情况下出现的数据流进行对比。各种模式成型不久后,厂商们就能预测汽车中哪个部分容易出故障,找到改善喷气发动机的维修周期的方法,或者了解到要进行哪种软件修改才能提高一台豪华轿车的制动性能。

移动运营商和大型零售连锁店对这类技术也使用了一段时间,还因此调整了各自的营销战略。据悉,通过强大的数据挖掘技术,美国超市连锁店塔吉特(Target)能够查出哪些顾客到了怀孕的第三个月,那是他们消费习惯中的一个重要时段。此外,“谷歌流感趋势(Google Flu Trends)”对流感爆发的追踪比任何政府机构做的都要出色。

重回今天专栏的主题,看看这些数据挖掘技术能够怎样用于从数字新闻中提取更多的价值。

互联网目前已经能够提供了解各类数据的必需工具,如谁在访问网站、他们喜欢什么等等。要做的就是更加准确地了解用户和预测他们的需求。

下面我们拿Facebook来作类比。通过仔细分析用户产生的“内容”——声明、图片、链接、与朋友的互动、“赞”、“戳一下”等等,该社交网络能够开发出令人震惊的预测模型。它能够发现某个用户的状态(单身、已婚、已订婚等等)改变,即使那个用户从未明确提及。同样地,Facebook能够准确预测出两名在其网络上偶尔会进行交流的用户发展成情侣关系的可能性。

同理,该公司也能够发现某用户经济状况或者身体状况的改变。Facebook在不需要人们告知的情况下,通过与数百万类似行为相关的语义分析就能发现谁刚刚失业,谁非常低落,谁非常高兴,谁怀孕了,谁已经订婚……但对于Facebook来说,如果它向用户显示人人都能看到的令人尴尬的精准广告或者令人厌恶的推荐,就会给用户造成难以忍受的干扰。

应用到新闻内容,同样的技术也能帮助改善对读者的了解。例如,通过将某读者的阅读习惯与数百万其它读者的进行对比,网站能够发现他的职位变动。基于这一点,如果发现劳拉•史密斯(Laura Smith)有70%的可能性已经在一家圣地亚哥生物技术初创公司晋升为营销经理,那网站就能够向她投放更加精准的广告,尤其是如果还发现她似乎热衷于徒步旅行的话。

更加重要的是,随着时间的推移,该网站能够逐渐进行定制化:当然,相比普通读者史密斯将会在商业栏目看到更多关于生物技术的内容,同时艺术与休闲栏目也将能选出更多很可能符合她口味的内容,旅游栏目看起来也将更像是一本户外杂志,而非是面向患强迫症都市人的旅游指南。渐渐地,史密斯获得的内容将变得更加有用,更有吸引力。

由此带来的经济效应也是显而易见的。网站的广告——或者说是更好的软广告(用户讨厌横幅广告)——将能卖出比以往要高得多的价钱,更多相关性很高的内容的出现也将促使史密斯每月浏览更多的东西。另外,鉴于史密斯由于晋升获得了更高的薪水,随着她对网站的兴趣越来越浓烈,她很可能会成为该网站的高级订阅用户;届时网站就会在正确的时候向她提供量身定做的内容。

Facebook需要在用户愿意放弃隐私换取出色的服务的前提下,才能公开显示用户的隐私。与该社交网络不同,新闻发行商会更加地谨慎。首先,它们向读者提供的广告和内容只有读者本人才能看到,他们的Facebook朋友都不会看到。这是很大的区别,需要高级的定制化水平。另外,谈到阅读,为用户保留一份意外惊喜也非常重要。我是说,没有人会喜欢100%定制化的网站的,因为那样会让读者觉得有点毛骨悚然,致使他们去别的网站寻找让人振奋的内容。

总之,通过收集和分析行为数据,网站是能够向读者提供富有吸引力的新闻服务的,而它自己也能够获得更多的收入。

这还要多久才能实现呢?在新闻领域,“大数据”还处于初期发展阶段。但随着摩尔定律继续发挥作用,使得所需的强大计算能力变得更加实惠,它将会更容易为内容发行商所获取。20年前,只有美国国家安全局(NSA)才能处理大型运动场大小的私人数据中心的大量数据集。如今,发行商能够与小公司展开合作,那些小公司将其CPU时间和存储能力外包给亚马逊 的Amazon Web Services服务,并使用开源的分布式系统基础架构Hadoop,从而挖掘成千上万份档案资料。这也是“大数据”蓬勃发展,可为新公司提供改善其商业模式的新机遇的原因。作者:法国数字集团ePresse总经理Frédéric Filloux (乐邦)

责编:杨雪姣
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map