|
EMC为你解析大数据来源及实际应用趋势
和云计算一样热门的大数据一词,其产生原因是什么,大数据应用,未来在个人日常生活中的实际作用又是如何,前几日,EMC内部几位高管在EMCGreenplumChorus发布会上,对大数据的这一领域,发表了自己的看法,同时还对EMC中国大数据市场战略做了大体介绍,Chorus的产品经理讲述了Chorus的开发历程及主要特点。
Chorus产品的开发和它的特性 EMC中国卓越研发集团资深产品经理,庄富任则是介绍了Chorus产品的开发和它的特性。 庄富任强调了几个重点,第一,Chorus是一个由中国研发团队主导产生的产品,不只是针对中国的市场,也是针对全球的市场。 经历了短短的一年半的时间,其实才很短的时间,从没有,到整个data,才通过短短一年半的时间,这是非常难能可贵的。如果没有中国的研发团队,Chorus这样一个这么好的产品是不可能问世的。 第二点是,Chorus是全世界第一个基于协作分析的大数据平台的协作分析平台,在EMC看来整个业界认可的其他软件提供商,他们都还没有用到这个品牌,EMC等于是整个中国研发团队在大数据分析是很领先的领头羊,所以其他一些竞争对手可能是看到Chorus之后,才开始觉得协作、分析大数据是很重要的,才开始投入关于它的研发,但是晚好几年的时间。 第三,Chorus有一些beta客户,EMC团队是可以很快的会回应客户的需求,所以当EMC邀请一些beta客户来进行试用,大概每个礼拜我们会提供一个版本给客户,就是客户在这一个礼拜有什么问题、他有什么需求,EMC研发团队会很快的针对他们的需求做跟进,所以这是非常快速的。庄富任相信其他公司很难在这么短的时间开发一个架构,提供给客户。所以Chorus不只是产品的特色,甚至整个研发团队在中国是很靠近我们的客户,可以很快去回应客户的需求。 去年对于Greenplum来讲有一个很重要的时刻,我们提出一个新的概念,叫做统一的分析平台,就是针对海量数据有一个统一分析的平台,它包含什么呢?有三个主要部分,刚才也提到了第一是Greenplum的数据库,第二是Greenplum的非结构化的数据,这是什么不一样的呢?数据库很传统,就是储存一般化的数据,这已经发展了好几十年了。 我们看到客户越来越多的需求,刚才提到非结构化数据,什么是非结构化数据呢?我们可以看见文件是非结构化数据,对于Internet来讲网站的数据是非结构去数据,对电信业者来讲,每个人打电话的明细是非结构化数据。这样的数据增长的非常快,我是不是有一个能力去帮助这些客户储存这些数据,用一个很便宜的架构,去存储这样的数据?这就是Greenplum的产品公布,可以帮助客户用最便宜的价格去存储这些数据。第三就是GreenplumChorus,是基于这上面的协作分析平台,因为有了数据的储存,需要有一个共同的平台去分析底下的结构化跟非结构化数据。 当前时代的一个趋势,数据科学家在每个企业里面是一个逐渐茁壮的团队,这个团队包含什么呢?不只是单纯的数据科学家,还包括传统的数据工程师、IT部门,还包括事业部分析师和一般事业部用户,都是我们称之为的数据科学家,因为每个人都有他的知识或者信息去做分析。 GreenplumChorus是在最上面一层,是统一的界面,让数据科学家能够登录进来,甚至这个平台是开放的,对第三方或者合作伙伴是可以很容易的去整合进来。然后可以去访问底下的结构化数据,GreenplumDatabase等等。EMC有一个beta客户是电子商务客户,他可能在原本数据库里面,刚开始做的时候,他可能从5TB的数据库资料,因为这会一直增长,增长之后他发觉很多数据想要存在数据库里面是没办法去满足的。 这其中的原因大概有几点,第一,成本可能越来越高,数据库可能没办法储存一些非结构化的资料和数据,因为他们是电子商务平台,所以他们有一些客户或者消费者当登录网站以后,在每个页面去点击这些记录想要记录下来,他想要去追踪我的客户里面的消费性的习惯,甚至他也想把一些外部的数据拉进来,就是一些微博的讯息等等。 这些都需要一个很好的储存设备或者很好的计算设备,这时候EMC把hadoop这样一个解决方案加进来。有了这样一个基础的数据的基础建设以外,更需要一个共同的平台,能够把非结构化的数据转化成结构化数据,或者希望把这两个东西结合起来做分析,也就是说我的客户资料或者我的客户的交易信息,都存在数据库里。页面上点击的资讯是存在hadoop里的,是不是这两个数据能够结合起来做分析?这时候就需要Chorus做分析,产生一个最后的结果。 数据处理的速度是越来越快,同时也越来越便宜。但是这还不够。Chorus要的是什么,达到一个什么效果呢?首先它是一个社交平台,是一个开放式的平台,然后它是敏捷的,这是整个Greenplum在产品战略里面着重的部分。所以对数据科学的分析,首先它是结构化的数据、非结构化的数据,其次在企业内部的所有人都可以做协作的分析,然后通过Chorus这个平台也能确保它的安全性跟可靠度。 现在的企业不能够单单只想说它的数据是只有小部分,或者它的工具只要用几个工具就可以了,或者用少部分的人做分析。我们看的是一个更大的平台,所有的数据都应该进来这个大数据分析的平台,所有的工具都能够很轻易的进来分析,所有的员工都可以参与数据分析,任何一个人都可以是数据科学家。 对于GreenplumChorus的几个比较重要的功能,庄富任列出了四个,个人的沙盒、数据发掘、协作分析、开放架构。 EMC想要把Chorus当作数据科学家的分析平台,每天一大早起来,登录的就是Chorus,就会很兴奋,一大早进来没有登录Chorus就活不下去。以前在做一个数据分析的时候,是很痛苦的,也非常冗长,它的流程是非常久的。 为什么这样讲呢?如果你真的经历过数据分析的流程,比如这张照片里看到的,第一,要去发掘数据,然后拿到这些数据,这样的流程可能要跟IT打交道,可能要跟他申请,申请了之后,还要等到一些流程,他们同意了,才可以拿到资料做分析,这样的时间可能要花一个礼拜,这样的时间还是蛮快的。 拿到这些数据之后,目前没有很好的工具让这些数据科学家或者分析人员去了解这些数据,因为对他们来讲,数据不仅是0跟1或者是数字,需要有很好的工具,能把这些0和1的数字变成图形化,展现给研究人员。 第三步是哪些数据是我要的,我怎么把它拉进我的沙盒,沙盒就是自己独有的数据库,可以在里面做任何分析,做任何分析都不会影响到生产线里面的效能,所以你可以在里面做任何实验,都没有关系。这样的话,IT也不用担心你滥用计算机等资源,他会很放心的可以让你去做,但是以前是没有办法这样做的。之后是开始分析,他可以自己一个人单打独斗,就一个人埋头做分析,没有协作的平台,因为很多分析是可以靠很多人进来参与的,缩短这个分析的流程,所以这样一个分析流程你单打独斗会花费很多时间。最后我建立了一个很好的模型,就可以进行运营化。这样一个流程可以花去好几个礼拜或者几个月的时间,才可以得到一个分析的结果和发布出来。 为了解决这样的问题,EMC希望Chorus是达到一个更快、更容易的、敏捷的分析平台,所以当它从探索数据、创建一个所谓的项目的空间,一个你自己独有的沙盒,到做数据分析,都是一个协作的平台,任何人都可以进来做协作分析,而最后把你的发现或者你的程序代码或者你的建议好的模型发布出去,让别人可以重复利用,这样就真正缩短了整个分析的流程。 刚才提到几个case,甚至我分析的模型可以很快,一天两天就可以完成,很快就可以给我的事业部门或者别的部门去用。 第一个功能在Chorus里面,就是个人的沙盒,当每个部门可能有不同的分析需求,例如华北、华中、华南不同区域可能有不同的分析需求,所以可以为华北、华中、华南自己去创立他们自己的个人的沙盒,就是数据库,创建的沙盒不会影响到整个数据存储里面的资料或者数据存储里面的项目,在里面做的分析或者做了一些很笨的事情,都不会影响到原本的生产线的数据存储资料或项目。 就是对IT来讲,沙盘等于是非常放心的,因为反正你在你自己的沙盒里面随便试验,都不会影响到生产线。数据科学家也可以很容易的去创建他自己的工作空间。这个东西是很有弹性的,就是我要的数据越大,我可以有更大的空间,如果当我的分析结束以后,我可以很容易把这些资源收回,让别人去使用,所以它是很有弹性的。 另外是对于企业级的搜寻的应用,EMC觉得越来越重要,就是结构化的数据跟非结构化的数据,这两个加在一起以后,怎么样有一个更好的搜寻引擎可以去找到结构化跟非结构化的数据。例如Google或者百度提供的就是所谓的网站的一些搜寻,但是目前针对企业级里面的数据库或者Hadoop的搜寻引擎,并没有很好的解决方案,EMC中国研发团队建立一个非常强大的企业级的搜寻引擎,使用者可以很简单的只要把握关键字,例如想要知道华中地区的市场数据,很快就可以把这样搜寻出来的结果,例如你可以去哪个数据库里面找到,点击进去以后就可以看到每个数据之间的关系。 我们看到的数据不只是0跟1或者是很简单的文字性的叙述,我们要有很好的视觉化处理的工具或者引擎,可以把0、1转化成统计式的很简单的图形,可以让你很容易的看到整个数据的分布情形,这对他们来讲搜寻数据变得越来越容易,越来越视觉化。>> EMC解读协作分析总结Chorus特点 协作的分析,这是EMC觉得越来越重要的一点。庄富任举了一个简单的应用场景来解释协作分析带来的便利。 可能在事业部里面,在华北的零售商是专门卖冰品或者冰激凌,他们会发现为什么这个礼拜我的冰品或者冰激凌销售量增加很多,他们不知道什么原因,他们只要登录到Chorus平台,然后跟数据科学家讲,我想要知道为什么华北地区冰激凌的销售量在这周突然增加。他登录进去,通过这个平台发布这样一个问题。 身为一个数据科学家,当登录Chorus以后,看到这样一个问题,就赶快做分析,所以不用等到IT去申请资料,就可以找到客户的资料,华北地区的销售资料,甚至可以很容易的把非结构化的资料抓进来,因为光有客户的资料等等还不够,还可以把几个资料抓进来,比如天气因素,天气因素可能是从气象局,把外部的资料拉进去给Chorus做分析,或者是可能怀疑是其他竞争对手降价促销,也把这个资料拉进去做分析。 通过Chorus这样一个平台,很快可以建立一个模型,做一个所谓的分析,找到关联性。最后可能发觉华北这个礼拜气温突然升高很多,数据科学家会把这样一个结果发布在Chorus,非常快的有一个及时的通知,华北的这些事业部的兄弟就会知道,为什么冰激凌的销售会突然爆增,是因为天气的因素。而且通过分析的结果,我分析出来,因为我拿到气象局的资料,未来一周气温会持续维持很高,甚至一两天的时间我就做出决定,因为这样一个因素,我希望在华北地区增加铺货的量或者我希望多做一些方案,让销售量更大。 所以通过这样一个共享的空间,可以很快的及时的去面对市场的反映,这比一般传统的分析的工具或者平台,达到这样的效果要快,他们可能要好几个礼拜才有这样一个分析的结果,如果这样的话市场先机就失去了。除了这样灵活的分析以外,当然也要确保在Chorus里面数据、资料的安全性,什么样的人可以搜寻什么样的数据。 最后一点,Chorus在今年有很大的宣布,也就是说EMC希望去开放平台,这对EMC来讲是一个非常不一样的产品的战略,EMC看到一个开放性平台的重要性,对于Chorus来讲,除了提供更广的整合环境,任何第三方的人都可以进来做整合,也可以看到一些第三方的数据越来越重要,很多第三方合作伙伴,提供很好的视觉化的工具,EMC都希望他们可以很容易进到这样一个平台。 开放性成功的例子,java还有最近很成功的安卓。大部分智能手机都有安卓这样一个开源、开方式的平台。所以EMC希望Chorus是企业级里面的大数据分析里面的开源、开放式的平台,它就像是安卓在智能型手机里面扮演的那么成功的角色。希望任何人都可以下载使用,拿来以后他可以自己修改,符合自己的需求。就是你看到安卓的系统虽然是Google开源、开放出去的,但是三星或者HTC可以把这样一个东西拿出来修改成符合自己需要的产品。 所以EMC希望Chorus也是这样的产品,客户和我们的伙伴可以免费使用、修改,然后去做成他们符合自己需要的大数据分析的解决方案,这就是EMC想要建立的生态系统,把所有的伙伴,把这样一个大数据分析的生态系统做得更大。EMC的计划,因为Chorus现在还不是开源的,希望它逐渐的在2012年下半年可以开源,任何人都可以使用。 庄富任总结Chorus的特点时这样说,Chorus是非常不一样的,它是全世界第一个基于大数据分析的社交协作的平台。第二,因为开源和开放性的特性,跟其他的封闭性的系统不一样,可以很容易的让第三方伙伴进来做整合,扩充整个大数据分析的功能。最后,EMC最重要的一个宣告或者宣誓,我们对于Chorus的开源觉得是很重要的具有战略性的,希望所有的伙伴可以使用下载,做成符合他们自己的大数据分析。
责编:杨雪姣
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|