|
|
主 持 人:kaiyun体育官方人口 副主编 杨雪姣 播出时间:2012年8月30日 拍摄地点:kaiyun体育官方人口 视频直播室 地址:北京市朝阳区东三环中路39号 |
|
主题介绍大数据时代的来临已经毋庸置疑,这个时代的特征之一是数据成指数级增长;另一个更为重要的特征是数据类型多且复杂。对于企业和CIO来说,如何利用大数据技术来管理并挖掘其数据的商业价值,使企业更迅速的占领市场先机,给客户带来更好的体验。本期畅享视频邀请Informatica核心技术部资深产品管理总监郑玮解答大数据时代的数据管理问题,如何帮助企业的做出更好的决策? |
嘉宾介绍郑玮 Informatica核心技术部资深产品管理总监 郑玮女士加入Informatica公司已超过6年时间。作为Informatica公司核心技术部资深产品管理总监,郑玮女士领导Informatica企业数据集成的产品方向和策略,尤其是负责Informatica Hadoop、大数据、PowerCenter和Informatica Data Service/Virtulization等核心产品的方向和策略。在加盟Informatica之前,郑玮女士在一家专注于软件和硬件资产库存和分析的企业商务智能创业公司任首席技术官。郑玮女士拥有美国加州大学伯克利分校计算机科学学士学位。 |
视频实录 主持人:各位会员大家好,感谢关注我们本期的畅想对话,今天我们也是非常荣幸邀请到了Informatica核心技术部资深产品管理总监郑玮女士,那就请郑总给大家打一个招呼。
郑玮:大家好。很高兴来到这里。
主持人:我们今天话题主要是集中在大数据这一块,因为对于大家来说,可能大数据也是在IT业界谈论比较多的话题,对于大家来说大数据到底是一个噱头还是一个真实发展的事情,对于企业将带来什么样的影响和挑战?这是我们大家都比较困惑的问题。我们也希望通过今天的对话能为大家带来一些解答。
第一个问题,首先想问的是说大数据就突出在大上面,对于很多企业来说,它的数据可能都没有在TB级,我不知道对于这个大是如何定义的,请Informatica的郑女士谈一下Informatica是如何定义和看待大数据的,就是数据的量和价值是否一定会存在关系,还是说只有量大才会有价值?还是说有什么样的关系?
郑玮:这个问题其实是很好的问题,我们有很多顾客也经常问我们,到底是多少数据算是大数据,从我们这一边看大数据不仅是数据量,其实我们经常说到大数据有三个V,就是实际数量只是一部分,还有数据的种类,比如说现在很多数据都不是在数据库里面的数据,是平常的不同的数据,数据的结构也是跟以前不一样,不是很容易可以解析的,有很多数据是双模型的,各种各样分析的办法都可作为大数据。
最后说到大数据,说到数据的速度,大数据不仅是数据的数量,也是说可以不可以给你的顾客,在应该得到的时候得到数据的意义。刚才还问到数据的数量跟数据的价值有关系吗?这也是挺有意思的问题,不应该说数据一定是有很大的数量才可以得到价值,我们刚才说数据的种类,或者是其他不同的大数据问题,现在看到只是怎么样能够从你有的数据里面不管是TB,还是GB,还是MB,到底是怎么样从那些数据得到更大的价值,所以应该说大价值是大数据一部分。不能光说数量,其他这些都应该考虑进去的。
主持人:那Informatica是否也是认可这三V的定义呢?
郑玮:对,我们是这样觉得,我们现在比喻大数据是大红人,在大数据没有成大红人之前,Informatica已一直在跟我们的顾客讲到很多现在说的大价值问题,这绝对是我们Informatica的看法。
主持人:看来被业界普遍公认的了,就是在这种大数据的时代,如果是有价值的数据会存在,同时在大家不断产生数据这种过程中,垃圾数据也会存在很多,包括你的这个数据是否是准确的,我后期怎么样去维护他。企业有怎样的流程和方法在判断这种数据的质量,价值,怎么样管理?因为我之前就是采访到其他CIO的时候,提到说信息化是需要全面参与的事情,就是对于公司所有的员工都需要来参与这个事情。都对他们进行培训,因为觉得上系统之前如果一开始录入的数据就是有问题的,这后面做的事情就毫无意义。
郑玮:这是很重要的一部分,实际上数据的质量是一直是我们Informatica在做的很专一的一件事,早在没有大数据的时候,还是小数据的时候,Informatica就开始说到数据的质量,所以我们大概是从7、8年前,我们就有了一个软件平台,专门是帮助顾客增加他们的数据质量,即帮助他们解决质量上的问题。现在用大数据来看,数据质量是更加严重的问题了。因为当你的数量增加的时候,如果有不好的数据,垃圾数据,那最后会变成大的垃圾数据,所以它的规模从大数据角度来说,现在是更加糟糕了。所以就像你刚才说的例子,如果顾客觉得你输进去数据质量不行,那你要再做分析都没有什么用,因为你拿出来的结果不会是好的。所以我们看大数据平台的时候,一定要看到数据质量是一部分,不管是在购选不同的软件平台,或者是找一些人帮助你解决大数据问题,一定要从数据的质量上看,这是很重要的部分。
主持人:那么在这个数据过程中,有没有存在不同的系统之间的数据编码,标准,这种不同。
郑玮:从数据质量这一方面说,大数据不是一个新的概论,也不是一个新的问题。以前比如说不同的数据仓库拿出来的数据,在一个系统上是正确的,当你把不同的系统放在一起的时候,一个数据正确不一定是整个数据上都是正确的。所以说数据质量不只是正确,也是看是不是能够跟其他的数据源加在一起统一的看,是不是有数据质量的问题。
主持人:现在比较活跃的微博,社交媒体,这个数据应该是算非常大级别的数据了,大家也是每一天,每时每刻都在产生这样的数据,每一个人都会有。包括现在有很多公司会做这种微博的营销,帮助企业也好,个人也好,来分析你的粉丝,用户等等这样的问题,包括淘宝也会做这种分析。我不知道这种是否也算大数据的应用?或者说和我们企业级应用会存在一些什么样的差别?
郑玮:我觉得肯定是有相同的地方也有差别。我们先说相同的地方,相同的地方用大数据量来说,像微博,还有淘宝或者是在美国的Facebook、Twitter,他们的数据量肯定是不得了的,不要说TB了,甚至是PB。一般企业的数据量是差别很大的。刚才我说过大数据不仅是数据量,除了数据量还要看在数据上的分析和数据上的访问,这些在大数据上就是你的微博,那些公司做的事跟你企业上做的事也是有相同的地方。尽管你的数据量不一定是同样的,但是你可以从他那儿得到一些办法分析你的数据。所以从这方面来说,也还是可以得到很多很有用的秘密,要看他们公司怎么样分析。我给你另外一个例子,上午我是从美国飞到北京来,我要去买一张机票,有很多网站上都可以卖机票给你,现在美国有一些机票网站聪明到可以根据天气的好坏,根据汽油的价钱,根据以前从哪里飞到哪里,不仅是三个月,四个月,一整年的数据。那不像微博,但也还是有很大的数据量,可以从那些数据里面告诉你现在是该买的时候还是不该买。是不是要再等两天价钱会慢慢掉下来。我觉得从这里看,可以学到很多,微博要做的数据分析,一般企业也可以有。
主持人:就是他们之间还是有共通之处。那有差别吗?
郑玮:差别也很大。从微博来说,最主要是可以知道从消费者和顾客的眼光里面看出产品的好坏。比如说像美国,就是可以从Twitter得到这个产品很烂,这个产品很好,这个产品很棒等信息。你如果说这个货很烂,或者是很糟糕,可以从这个字里面得到数据,这是在微博和网站来说是最大的不同的地方。一般企业家来说,不会做这种从文字里面找到数据的事情。
主持人:那么就是说现在我们提大数据,对于企业来说可能对于这种BI、数据仓库有的甚至没有做,有的刚刚来做,我们没有开始之前也进行了这方面的沟通,说BI和大数据到底是什么样的关系,企业应该是先做BI,还是先做大数据,我们刚才也讨论了这样的问题。
郑玮:很多人这样问,我们公司是不是不做BI的话,那大数据是不是对我来说就没有意义了。其实我觉得这也不对,因为BI尽管是发展最快的,也发展了很久,但是很多公司并没有觉得BI是一个特别重要的事情。像我刚刚给你的例子,那不是一个一般性BI的问题,平时做那些报道,或者是给你的公司人看那些公司到底是做的好,做的坏,那些报道来说是比较正常的BI的用法。比如说给顾客一些推荐或者是给你一些更加有意思的服务,比如说可以在网站上听到一个音乐,下一次再听的时候会给你一些推荐,如果你喜欢这个肯定也会喜欢那个。就是那些推荐的办法,这种不是一般的BI的用处。大数据有一个有意思的地方是,会让你以前会做的事情变得更加困难去做,要有一定的软件或者是一定的办法去解决。但是有一些以前根本没有想到过的事情,跟BI没有关系的事情,现在作为大数据的话肯定会关注,因为这是你公司里面或者是你企业里面很重要的一点。所以我觉得不仅是BI,就算以前没有做过BI,大数据还是有价值,还是有氛围的。
主持人:就是说和企业做不做BI完全没有关系。
郑玮:不是说完全没有关系,不应该说你做了BI现在一定要看大数据,也不是说你没有做BI,就不用看大数据,他们是相关的,但是还是有不一样的用法。应该这么说。
主持人:其实对于企业来说,我们现在说大数据或者之前说云计算,比如说厂商是有一些他自己的说法,企业肯定也有他的一些用处,对于他来说这个东西到底是不是有用。我们就会问,是不是对于所有企业来说,都会用到大数据的东西,如果他想用的话在这个投入方面,会不会也是有一个比较大的投入?
郑玮:我觉得,为什么大数据那么红是因为在投入方面来说,因为很多平台都是开源的,不是跟以前一样,要花那么多钱去投入到作为数据分析的平台中,现在因为很多像Hadoop、NOSQL,HBASE的技术,很多不同的科技都是开源的科技,其实可以很容易地给那么多人用,大家都可以去网站下载,然后就可以用了。这在大数据这一块来说,是有很大的普通性。你说到底要花多少投入,我觉得从企业方面来说,当然不是只需要3、4个人在公司里面随便玩玩,做一些大事情的话,还是要有一定的投入,可能跟以前不太一样。还有另外一件事情,说起来就是现在在云那里,很多企业把自己的数据本来是放在自己那里,现在搬到云上面去,也是想做低价的数据分析。所以从做大数据方面来说,如果你看一下,比如说像美国Amazon EMR,他们就说你不要在一开始就买很多很多的软件,或者是买很多很多的硬件,你买一点用一点,买一点用一点。如果你要买25个小时,40个GB的数据处理时间,你可以就买那一段时间。所以我觉得云跟大数据加在一起的时候,有一些云的数据服务,对公司,特别是小的企业,不是投入很大,或者说如果他们没有很多钱去投入到数据方面,这是很有帮助的。
主持人:比如说对于国有的企业,对这种数据分析都有需求吗?还是说在一些特定的行业,他们才有这种需求?
郑玮:对于行业来说,从Informatica来看还是跟以前挺像的,比如说像金融方面来说,其中有很多在用大数据的平台做事。我从美国加州过来,就一个科技中心来说,还有你刚刚提到的微博,是有很大部分人在用这个东西。我最近看到一个很有意思的事情,就是在家里面控制的空调的机器,空调机现在会变得很聪明,会知道如果天气不好,你早上四点钟走,晚上四点钟回来,会自己做一些温度的调整。那些是你平时不会想到的公司,他们现在也用大数据的平台给你提供更好的产品。所以我觉得世界是在变。
主持人:那个空调就是跟物联网是有比较大的关系。
郑玮:对。
主持人:其实刚才您也提到了云的东西,比如说现在云和大数据也是会让人们经常联系在一起讨论,大家会说云和大数据是有什么样的关系吗?之前是云计算一直在被大家讨论,非常火。现在又出现了大数据,他们两者之间是不是有什么联系?或者是有什么样的关系存在?
郑玮:他们一定是有联系的,我刚才说帮你把大数据做数据分析的服务放到云上面去,这是很好的连结办法。但也不要搞错,这两个是很不同的平台,不管你是小数据,还是大数据,云都是有帮助的,这与你的数据到底放在哪里有关系。以前数据如果放在自己公司里面的话,当然会比较安全,从数据安全上说比较好。但是不可能让更多的人享用到数据的价值,所以云有一些不同的方面,大数据跟云在一起的时候也有一些不同的产品。不同的公司现在都在看,怎么样把云跟大数据合在一起,使数据拥有更加大的价值。这两个应该是不同的方面。
主持人:其实就是您刚才说的云上的数据分析,这可能也会是未来的发展趋势,有一些厂商也在提供类似的服务。
郑玮:其实有很多云,比如说像是Salesforce 专门为你提供一个CRM服务,CRM的数据不是那么大,但是现在除了给你很一般的服务,会给你更加高档的服务,在高档服务里面,那些数据分析会变成一部分。现在是一个机会,可以让很多不同的软件公司来为顾客服务,做一些很有意思的产品。
主持人:这对中小企业来说应该也是非常有利的事情吧?
郑玮:当然。我觉得云从一开始对中小企业而言,就是一个很好的帮助,但是现在因为有了数据分析产品或服务,对中小企业就有了更大的帮助。
主持人:其实刚才您谈话中几次提到了Hadoop,这也算是一个红人,各大IT厂商都有Hadoop支持计划,包括推出相关的产品和服务,Hadoop这种开源的技术是可以大幅降低成本的,刚才您也提到了这样一些产品。所以Hadoop对大数据的发展来说是一个非常重要的技术或者是首选的技术。
郑玮:我觉得Hadoop是大数据里面最重要一个科技部分,因为与其他不同的科技来看, Hadoop在很多方面是发展最快的,有更大的公司帮助其成长。因为就像你说,它是一个开源的科技,Informatica大概是一年半前就开始专门在Hadoop方面有所研究,我们最近发布的Informatica 9.5版本就要出专门为Hadoop做计算的软件。有一件事情很多人觉得其实挺难学的,因为主要是两个部分。一个是文献的收藏率HDFS,还有一个是MapReduce数据分析的工程。一般认为对从来没有做过数据分析的人来说,这是挺难学的,比如说要会JAVA或者是写一些不同数据的程序。Informatica现在觉得有很好的机会,可以让大众都来学Hadoop,不需要知道JAVA,如果现在你是Informatica的顾客,你就可以去做大数据的数据访问,也可以做大数据的数据处理,就跟以前做ETL,即做数据仓库的时候有很大一部分是T,那T部分可以在Hadoop上面做,不需要很专门的技术去支持这个软件。现在对大数据来说,很多人觉得大数据就是Hadoop,已经到这种程度了。但是我们都知道大数据不只是Hadoop,但Hadoop绝对是大数据很大的一个部分。
主持人:我好象也听到,比如说互联网的公司更倾向于用Hadoop,那企业来说是有能力或者是有精力做Hadoop这样的东西吗?
郑玮:就像我刚才说很多人有一点怕,以前比如说做数据仓库或者是数据分析都是用SQL,但是大家都知道怎么用,因为已经有十年,二十年这样做过了,现在来了一个Hadoop,有很多新的分析,有很多不同,有一些企业觉得我没有那些支持不知道怎么去用,也没有钱去训练相关人员。因此我觉得Informatica现在有一些企业的软件可以有很大的帮助。因为我们唯一的希望,就是你现在不用学那些特别的针对Hadoop方面的支持,我可以给你一个很容易使用的,而且跟你以前一模一样的,以前如果会做一般的ETL,现在就知道怎么用Hadoop,这是我们的一种希望,可能这产品出来之后,现在已经得到一些顾客的认同,顾客觉得挺高兴的,可以有这样的机会。
主持人:我不知道Informatica是否可以把在大数据方面的一些比较成功的东西,给大家分享,比如说有一些客户在用这样的东西。
郑玮:因为我们也是比较早在做,我们一般做数据分析或者是数据仓库,我们有一两千个顾客,在Hadoop上面,在大数据方面是比较少。但是最近有一个挺好的例子,我们有一个网站,是专门在线帮大家介绍婚姻或者是可以在一起交往的事情,这个网站是很有名的网站,其实从来都没有想过婚姻介绍会用到大数据,但是实际上也是有很多数据在里面的。他会分析你跟另外一个人的相配程度,他们用了Informatica的大数据平台,可以把他们的成本降30%,这是一个很大的成功。
主持人:对于他们来说,有一些什么样的对于业务或者是带来什么样的价值,这是怎么来评估的呢?
郑玮:因为就像我刚才说的,在以前没有Hadoop之前,或者是Informatica用Hadoop之前,他们只能看一堆很小的数据,比如说顾客已经三年里,每一次访问网站的时候都会做一些事情,又比如说你会做一些不同的事,每一次访问一样东西都会做成一个记录,以前没有大数据的时候,只能够解析一部分,比如说一个礼拜七天只能选三天,或只是看三个月的。但是现在可以看三年,每一天记录都可以拿进来,应该说数据的准确量和数据分析的准确量比以前提高了很多,从价值上说增加了很多。
还有一个就是成本,你所要花的钱降低了很多,所以一个是增加价值,还有一个是减少成本,这对Informatica来说,都是很好的一点。
主持人:这也是最终企业想要的东西所在。那我也知道郑玮是定居在美国,所以对美国的市场是不是有一些了解,也想知道在这种欧美用户和中国的用户在数据的需求,应用方面有没有一些差异和区别?
郑玮:我不应该说是专家,因为我对亚洲这边的用户还不是很了解,我这一次到中国来就是希望可以了解更多。但是从我现在看来,大数据还是在起步阶段。在美国。特别是在南加州,比如说有Facebook,谷歌,他们对大数据科技的影响很大。所以我觉得在美国的金融行业,是跑得比中国或者是亚洲快一点,在中国的顾客更多还是试试看,或者是学一下,知道一下。我们差的只不过是一个跑得快一点,一个跑得慢一点,基本做的事情是一样的。
主持人:现在在中国,包括云计算都是比较类似的东西,大家可能还是在它发展初期,都是试探性地看一看。最后一个问题问一下郑总,对于企业的CIO信息化负责人而言,他们如何看待大数据,如果他们想做这一件事情应该怎么去做,您可以根据您的经验给大家分享一些。
郑玮:我觉得如果你现在是一个CIO,如果企业想对大数据做一些了解的话,现在不要等,就应该开始。人家说十年,二十年,就像从云刚出来的时候有人说同样的话,这是很大的变化,对于我们这个企业来说是一个很大的变化。就算你现在的数量没有很大,或者是没有想到这一件事,从现在开始就起码要得到一些支持,得到一些经验,所以我的意思就是说,你如果有一些小的工程,就可以开始用这个科技去试一试,看你是不是能得到数据的价值。我觉得这是现在应该做的一件事情。
还有刚才说过很多不同的部分,比如说像数据的质量,这些是不能忽略的,不管是做大数据还是小数据,对不同数据方面来说,这一部分都一定要记住。
主持人:还有其他的吗?
郑玮:应该就是这些。
主持人:我们非常感谢郑玮女士给我们带来非常精彩的观点分享,也希望对我们的会员有所帮助。当然也希望通过我们这些谈话,希望对大数据有更加多的了解,我们也真的希望数据能为企业最终带来一些价值,这才是我们最终想要的东西。
我们也非常感谢大家的收看,谢谢。
郑玮:谢谢。 网友评论 更多往期视频 |
主持人介绍
现场图片 相关文章 栏目简介 致力于行业发展,关注企业信息化需求领域的实践和动态,kaiyun体育官方人口 推出《畅享视频》栏目,提供专业资讯与商务服务,共话企业信息化建设的成功之道。
《畅享视频》与知名专家、企业高层、成功客户代表等各类权威人士共同参与,分享权威人士的最新观点和体会,探讨企业经营真谛,与专家之家对话。锁定信息化领域,从不同的角度深入对话探讨,理论、实践、引导和执行的强力组合,以 “共享”理念,与您分享! 幕后制作:
|
|