雅虎公开13.5TB用户数据 参与人工智能

来源: 新浪科技
2016/1/15 16:58:06
北京时间1月15日上午消息,雅虎周四公布了关于用户如何使用该公司服务,例如雅虎新闻和雅虎财经的大量数据。此举是为了给学术界的机器学习研究者提供素材。不过值得指出的是,雅虎此次提供的数据集规模庞大,多达13.5TB。而雅虎此前提供的数据集通常只有1TB。

分享到: 新浪微博 腾讯微博
本文关键字: 雅虎 人工智能 数据

北京时间1月15日上午消息,雅虎周四公布了关于用户如何使用该公司服务,例如雅虎新闻和雅虎财经的大量数据。此举是为了给学术界的机器学习研究者提供素材。

这并不是雅虎首次公布这样的数据。在雅虎实验室的Webscope项目中,雅虎曾56次发布这样的数据,其中涉及广告、图片、社交媒体和评级等。此次公布的数据来自2015年的4个月时间,覆盖了2000万人,其中包括用户访问雅虎网站所使用的设备类型、文章的阅读情况,以及文章的主题。其他数据还包括用户的位置、年龄和性别,但这些数据都经过了匿名化处理。

不过值得指出的是,雅虎此次提供的数据集规模庞大,多达13.5TB。而雅虎此前提供的数据集通常只有1TB。

加州大学圣迭戈分校电气和计算机工程教授格特·兰克利特(Gert Lanckriet)表示:“我对此感到兴奋。这是因为,学术界和工业界的这类合作对于更强大人工智能和机器学习技术的研究、设计和开发,现实世界中的大数据处理至关重要。”

近期,雅虎正在采取措施吸引开发者。例如,雅虎开源了一些算法。这些算法用于对流数据的计算和网页爬虫,处理网站上的结构化数据。雅虎此次公布的数据将帮助学术界进一步了解用户的阅读习惯,进而对自己的算法进行优化。

雅虎提供了100行的数据范例,其中包含多种类型的数据,例如股票、学校、政治、体育和明星等。

雅虎实际上还有更多数据可以分享。雅虎实验室个性化科学研究总监苏吉·拉简(Suju Rajan)表示,她常常需要与PB(1PB=1000TB)级别的数据量打交道,而对雅虎这样的互联网公司来说并不少见。不过,PB级别的数据对单一研究者来说很难处理,即使是13TB的数据都已显得十分庞大。

雅虎实验室研究副总裁里卡多·贝扎-耶茨(Ricardo Baeza-Yates)表示:“许多人都没有能力使用这一数据,但我们认为,通过这种方式我们可以推进相关研究。”

责编:胡雪妍
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map