来自Google的内部报告:大数据的类型和数量同样重要

来源:Gigaom  作者: Derrick Harris
2012/11/1 10:13:53
一份来自Google的内部报告显示,大数据在构建面向消费者的服务(如智能手机中的语音搜索)时尤其重要。用来训练人工智能模型的数据越多,它越有可能猜出你下一句会说啥。虽然这份报告背后的数学知识可能超出大部分人的理解范围,但是原理并不复杂。

本文关键字: 大数据 Google

一份来自Google的内部报告显示,大数据在构建面向消费者的服务(如智能手机中的语音搜索)时尤其重要。用来训练人工智能模型的数据越多,它越有可能猜出你下一句会说啥。虽然这份报告背后的数学知识可能超出大部分人的理解范围,但是原理并不复杂。报告还提到了为何大家都对“大数据”这一概念如此兴奋,以及选择恰当的数据来训练智能模型的重要性。

Google一直秉承着这样一个观点:“数据越多越好。”Google的研发总监Peter Noevig也在09年的论文《数据的非理性效应》中表达了这样的观点,一般来说,更多的数据能催生更好的算法。你能为模型提供可供学习的数据越多,模型的准确度也会越高。

这一理论同样适用于语音识别系统的构建。研究者发现更大的数据集和语言模型能够提高依据一个单词猜测下个单词的准确度。Google的数据专家Ciprian也在一篇博文中提到一个例子:更好的语言模型会在前两个词是“New York”时,更倾向于预测下个词是“披萨”而不是“燕麦卷”。在语音搜索中,Ciprian的团队也发现如果将模型大小提高两个数量级,错误率会相应的降低约10%。

就像所有的数据科学家会告诉你的那样,真正的关键在于弄清什么类型的数据最适合用来训练你的模型。在语音搜索领域,Google使用的数据包含2300亿个单词,这些单词都来自Google接收到的搜索请求。由于人们在说话和打字时的语言使用习惯不一样,训练YouTube模型的数据主要来自于新闻广播的录音文本和大型网络爬虫。

这份报告中并没有介绍太多突破性进展,但是可以帮助大家更好的理解为何大数据突然变得如此有吸引力。随着消费者对智能应用和顺畅用户体验的要求越来越高,如何对大数据进行分析也将越来越重要。

责编:毋小艺
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map