|
|
主 持 人:kaiyun体育官方人口 总编程艳玲 播出时间:2012年7月23日 拍摄地点:kaiyun体育官方人口 视频直播室 地址:北京市朝阳区东三环中路39号 |
|
主题介绍这是一个最好的时代,也是一个最坏的时代。在云计算、大数据这些时髦的词语不断的进入我们的视线,我们却不知道该如何选择了?对于企业来说,这里面蕴含着巨大的机遇,也隐藏着风险,这些对于企业来说,到底是必用品还是奢侈品?本期畅享视频邀请了精诚云中心暨Etu负责人蒋居裕,请他为各位网友解答在大数据的未解之谜,企业CIO该如何看待大数据,如何帮助企业的做出更好的决策? |
嘉宾介绍蒋居裕 精诚云中心暨Etu负责人 蒋居裕(Fred Chiang)悠游于软件与网络两大领域近 20 年,历任不同职务,但核心均集中在阐释中间件技术于市场价值的工作。现职为精诚信息云中心负责人,关注云端运算技术与商务的发展,并为公司集团拟定云端相关策略与筹组新事业团队。Fred的专长为软件产业研究、软件产品策略/规划/管理、科技与技术社群营销、Internet前、后端技术应用,长期关注与云端运算有关的开源软件开发,并积极参与台湾的开源社群活动,同时也是台湾少数拥有Cloudera Certified Administrator for Apache Hadoop (CCAH) 认证的专业人士。 |
视频实录
精彩观点摘录1.IT本身是没有复古风潮的时尚产业,互联网就是一个被现实证明过的可以持续下来的风潮。大数据的风潮也是放在云计算这个大前提下作讨论的,大数据的现状是还没有跨越鸿沟,在这个行业里哪些共同的痛处或者共通的价值彰显,这是整个产业必须要面对的挑战。
2.企业关注的事情是结果本身,而不是看中间有什么智能工具,这也提醒我们不要太过技术化,我们应该强调商业价值而不是技术的高超。对整个大数据的产业来讲,我们这种传统上就是以IT技术为起家为这样的背景做的事情,我们必须要知道怎么跟企业对话,怎么样协助他的营销做的更好,怎么样协助他能够提高。
3.企业里面的数据分成三种温度,分别是热数据、温数据(这一层就是大数据处理平台所专注要做的事情)、冷数据。在处理这些不同的数据的时候,就必须根据它的时效性、有效性,以及它当时的价值,他必须在里面做数据的企业管理,摆在适当的位置,用适当的处理机制处理掉。
4.会锁定像电信运营商、电商等,运营商其实里面有很多很多的运营都可以用大数据的处理做,电商也会对会员的浏览行为进行一个处理和分析,做一些推荐清单出来。 主持人:各位网友大家好,感谢大家关注我们本期的畅享对话,今天我们为大家请到的是来自精诚集团云中心和Big Data事业处的负责人蒋居裕先生,欢迎大家。在我拿到这个话题的时候,我自己也有一些迷惘,到底谈什么。我觉得大数据和云计算相比的话是前后脚,现在云计算非常火,但大数据到现在还没有找到像云计算那么高的位置。但现在的话大家已经看到了,非常非常热。大家在谈大数据的时候,可能也会有一些迷惘,它到底是一个什么样的内涵,日常有没有接触到。但它如何跟我们的企业管理结合起来,这里有什么样的内容,这可能是我们今天聊的主题,所以今天我们也请您来,我们主要还是想聊一下这个事情。Etu成立的时间也不是很长,今年刚刚发布了我们的新战略。我想在这个当中可能也有很多要探索的,我们也会有自己的一些想法,一些观念。所以我想请您过来跟我们一起聊一下,我们在这个过程中一起看看,包括当中一些迷惑的方面,跟企业管理的结合,跟企业内涵有什么样的内容。刚才跟您说了这些情况,也说了Etu。我相信有一些会员可能会觉得陌生,所以我们先借这个时间做一下广告,介绍一下我们精诚,介绍一下我们Etu是什么样的。
蒋居裕:好的,精诚集团其实是台湾最大的IT服务公司,它在台湾的时间也有几年了,也是台湾上市的公司,它目前在亚洲的布局就包含了中国,当然我们在中国的总部是在上海,我们目前在华北、华东、华南都有分公司,另外我们在香港、泰国、新加坡这些东南亚地区都有子公司或者办事处,其实它是一个有三千多名员工,有这么久的IT服务历史的一家公司。在云计算里面,就像刚才提到的,它里面有很多的元素,我们精诚集团其实在去年成立了云中心,作为整个集团在云计算里面战略的计划跟投资单位,它们对集团负责。 然后我们在这个云中心底下就在讨论,我们应该在云计算的架构底下做一些什么样的长远的投资,所以才会有Etu知意图这个独立的品牌,然后专门针对这个市场发展做这个布局。所以它整个是这样子。 刚刚说在今年才在台湾跟北京做了产品的发布。事实上我们去年才成立为什么今年就能做这样的发布,我们很快就集结一群,拥有累计超过30几年大数据实战经验的一群技术专家,所以我们可以很快的去把应该呈现在市面上什么样的产品做出来,赶快做这个市场,去做后续战略上的活动。
主持人:在之前也聊了一下,精诚也是有38年历史的公司。谈到Etu的时候,我也有一个问题,为什么我们会叫这个名字,英文名字叫Etu,中文名字叫知意图,这也是一个故事。
蒋居裕:因为我们精诚整个运作来讲的话还是大中华市场很重视的,所以我们为这个新品牌想名字的时候,我们就想说我们应该想一个很贴近中国人所熟悉的含义的,可是要跟大数据有关系。我们当时就说知意图这个名字立出来,我们想知道大数据背后所潜藏的一些价值,带给企业什么样商务上可以操作差异化服务,提升竞争力的依据。 可是,如果我们把知意图这三个字直接搬为英文的话,太过绕口,所以我们就简化一下就Etu,就是知意图。
主持人:所以我们今天的主题就是知意图。我们现在这三个字已经看到是什么样的内涵,其实对我们知意图来讲,我们当年在做这个名字的时候目的就是要知道是这样的知意图,刚才也说到了,我们在做Etu之前已经有很多年历史了,也有了一些经验积累。企业和我们目前大数据这样的状况,这就是我们说到的,告诉大家知意图是什么。现在,在这里就可以跟我们大家分享一下,我们之前一些专家的经验,包括我们在成立这个知意图之后,我们这个意图到底发现了多少。
蒋居裕:我想我们不管是云计算还是大数据,其实都是在整个世界里头,不断的IT的狂潮底下最近这几年看到的东西。其实早在十年前,因为我本身是做中间件出身的,那时候我就有一个比较深刻的体会,IT本身是没有复古风潮的时尚产业,所以,如果大家想一下,我们可能在这几十年间,就IT的发展历史来讲的话,我们几乎每一年都会接触到一些新的字眼,每一年都会受到思想上的冲击。可是这些东西来来去去,有些经过一些时间的验证,留存下一些存在来的价值,有一些时间上根本没有来得及证明价值就已经消失了,我举个例子讲,在前面大概十几年的时间,十几年前当时还有非常多的人置疑互联网的价值,或者说互联网到底能存活多久,是不是能够健康的发展,所以在2000年的时候我们看到一场人类史上很大的泡沫化。可是走到现在,我们不会再有怀疑说互联网到底干吗,互联网到底带给人们什么样的价值。这个就是一股被现实证明过的可以持续下来的风潮。 甚至说就我们现在能够看到的未来,互联网的变化不会停止下来,未来的互联网可能也不是我们今天看到的互联网,所以这是一个持续发展的产业。回到云计算身上,我们看到的云计算其实又是一个新的风潮,这里面包含了太多的元素,这些元素可能在前两年最经常谈到的是虚拟化,可是到了今年我们开始又提到了大数据这一股风潮,这些风潮其实它都是放在云计算这个大前提下作讨论的。现在说云计算未来会怎样,也是太早了,我们可以说虚拟化也许已经走到一定的程度,成熟到一定的程度,已经跨越了IT产业崇拜的一位美国的科技大师,他提出的一个叫跨越王国的科技产品采用的一个模型。它这个模型里面最重要的是说在一个科技的技术,它被能够大量的采用之前,必须要有一道鸿沟要跨过去,跨过去之前要有一些早期的比较高瞻远瞩的,看到这个技术的家族愿意采用它。可是你为了要跨越这个鸿沟,你必须要做更多,能够把这个本来只适合一个一个项目做的技术,把它变成适用在某一些特定的行业里面共同的问题,解决它。把那个价值呈现出来,那这个才可以跨越这个鸿沟。我们看到虚拟化已经跨越了这个鸿沟,现在不会再有人置疑说为什么做虚拟化。现在只是说我们虚拟化能不能用比较低的成本,用什么架构能够让它做的更好,管理的更好,可以成为一个基础设施云计算里面的平台。 但是,如果我们再看大数据的现状的话,就会发觉它还没有跨越这个鸿沟,现在仅仅是有一些特殊的应用场景,有一些特别个性的技术,和一些感觉到有兴趣的人在一些专门的技术里面采用他。现在最热门大数据处理技术是Hadoop这个平台这个技术,所以,回过头来,它既然鸿沟还没跨越之前,是不是能够引发更多行业去看到这个技术的价值,然后在这个行业里头有一些共同的痛处或者共通的价值彰显的,这个其实就是整个产业必须要面对的挑战。 你能够去把这个挑战接下来处理好,这个鸿沟才跨越得过去。现在横梗在这个鸿沟之前是什么?这是第一个。互联网已经没问题了,大部分都有团队技术人才。可是对一般的企业来讲,很多企业是听了这三个字,可是不知道这个跟他有什么关系。所以我们必须要不断、不断的找一些重点的产业用户,告诉他,可能在世界上这个行业,面对这个问题的时候,用这个技术解决什么样的痛,或者带出了什么样的价值来。这个是这个产业持续要做的事情。
主持人:其实我觉得像您刚才说的我自己也是深有感触,其实对于媒体来讲的话,可能有一些新鲜的事物会更敏锐一些。但是往往是在早期的时候有一些迷惘性也比较长一些。就像刚才说的大数据,你们能够意识到数据的重要性。像您说的其他的行业,CID产业,对CID产业本身使用不高。我们会看到现在你要是与传统应用,说的最多的还是沃尔玛,对数据分析的结果。实际这个过程当中,大家可能会零星的接触到这样一些东西。但是这个东西你如果让这些企业管理者,把这些零星的数据串起来,这个很厉害。我觉得我们是通过我们的经验,给大家这样一些参考吧。其实我们也看到大数据是继云计算之后热起来的概念。其实对于我的理解来讲的话,云计算是一个模式的创新,它是一个模式的创新,有别于传统的软件架构,没有实物的架构。我们大数据其实是我自己也是这个状态,有这样的问题。我不知道您刚才谈到的理念,云计算下面的一个理念,是什么样的东西?
蒋居裕:好,我们在云计算里面,必须要去强调几件事情,所以他才会跟以往的所有的网络服务不一样。我们在所谓的数据中心,那一段,也就是我们一般人看到的那一段一些基本架构上不同,最终其实要引进的是一个分布式的概念。这个分布式要做到的是我们用软件,很强的软件框架能够操控这些相对比较便宜,这些所谓商用的服务器,也就是一般常讲的通用的X86服务器。不用再去买那种比较昂贵的机器,然后做到分布式的运算,然后当硬件出错的时候这个服务不终止,直接把坏的部分换掉,这个还是持续的运营下去。这个里面就已经有几点,所谓的云计算技术架构来讲的价值发生。第一个是我们支撑的是一个不会停顿的一个云的服务,我们要使用的就是相对便宜的硬件,然后用软件的框架来操控这一切。 所以,这里面我们只是拿来检验说是不是大数据就是这样的状况,这个当然是肯定的。为什么呢?我举我团队的例子来讲,我们团队的成员里面有几个人才组成的。最近大家听到欧洲有一个实验室他们发现了上帝的例子。我们就有两个成员当初在台湾其实就有参与过这个部分的工作。他们负责是里面的计算,基础架构的部分,这个技术的基础架构很大的就是分布式的预算。所以有这样的人才,再加上另外一个人才是来自于他们之前做过全球运营网络上的信息安全,所以这两个加在一起,他们做出来的东西是云计算底下的分布式,必须做出分布式的架构,再来他们都是利用便宜的X86的服务器做出来的。大部分的工作都是用一些开源软件来做软件上的价值开发。 所以,在三四年以前这两批人他们已经在接触,当时云计算的那种运算。他们后来说这个世界开始讨论云计算的时候,他说原来我们以前在处理的大数据就叫做云计算。为什么开始在讨论云计算变回虚拟化去了,所以最早云计算其实是他们处理大数据的那一条架构,而不是做虚拟化的一些东西。所以这是非常有趣的一个例子来说,为什么云计算跟大数据有这么密切的关系。 这是从技术架构,从另一方面来看的话,它其实是起源于谷歌,他为了去面对每天上亿来自全球的查询。我相信百度也是一样,他们为了让一个使用者在网上去打一个关键词,可能下一秒钟出来可能几百万、几千万个结果。可是他不想让你等十秒钟才看到,他希望在你在下一秒钟,很快给你这样的结果。可是为了做到这样子的结果,你知道背后要有分布式的预算,分布式的存储,你要快速的把要查询的结果呈现出来。这里面虽然使用的界面很简单,可是背后的技术含量却很高。 所以,我们这整个Etu团队当初成立的时候,因为这些人的经验我们知道,我们今天要呈现出来的,是整合了整个IT产业的,一个软硬件经过很好的优化跟简化的动作的产品。我们不想让使用者再经历过我们当初很痛苦的过程。所以有了这样的实战经验才能去产生一个真正对企业有价值的东西出来。
主持人:是,其实从我们团队本身,一方面也是Etu的负责人,所以这块本身就有的观点。我们今天是要谈本质,就像我非常认同您刚才的话,其实我们很多人都在讲云计算,可能是09年、00年、10年这个时间段是比较火。但是在之前我们已经有很多很多的应用,或者很多很多的行为都是云计算。我觉得最直观的就是邮箱了,这不就是云计算嘛。但直到云计算这个概念火起来大家才会冠以这个概念。我想对大数据来讲也是如此。您刚才也谈了,其实大数据确实已经是本质存在了,结构上已经越来越多。我们看到很多企业他们也是在上一些系统的时候,包括像管理文化等等都会有这样一个功能,所以势必以后对这个功能本身就会有这样的产生。我们先不解读到底这个有多深,我知道这个过程当中大家已经能感受到,它确实存在。我们今天谈大数据实际上在谈大数据的价值,而不是说大数据本身。其实之前我们已经有很多先行者,过去也是这样,有时候我们也会看到一些分析数据,就像沃尔玛,像移动,等等一些通信公司,他也会有这样的。比如说不同的客户会受到不同的,包括在社区里面发牢骚,可能随后就会有一个反馈过来,所以等等就会看到这样的信息,我不知道您可能比我聊的更专业一点,可不可以给我们大家再聊一聊,这个大数据本身的体现?
蒋居裕:其实您刚刚说的非常好,其实我们已经不用再去置疑企业里面有没有非结构化数据了,它已经确实存在在企业里面了,现在重点就是说我们到底怎么用。回到一个最根本的问题就是要怎么用取决于企业的心态。我们常常说,云计算里面对于比较高的角度来说会有两个最大的效率,第一个提高商业的程度,第二个就是降低成本。大数据到目前为止,不管从互联网还是从国外的一般企业看到的,其实还是在所谓的增加商务价值这个部分去着手,去做更多的应用,而不是在降低成本。因为你如果说降低成本,可能是这个大数据背后的技术平台,只是拿来做低价的存储。如果只做存储那个数据是死的。必须要处理跟分析,运算,才有办法把数据的商务价值呈现出来。 所以从这个角度来看的话,我们看到很多例子,其实您刚才提到了,像运营商他们会想去为他们的客户做分群,甚至找到一些意见领袖,给这些意见领袖不一样的待遇,引导出更具商业价值的一些意见出来。现在其实有很多比较前沿的公司真的已经在做这一块,而且这些就不是互联网的公司了。回到一个最基本的问题,就是说如果一个传统的企业,他现在就没有所有智能的系统,那它对大数据怎么办?他也不会去关注大数据,因为他连他最关键的所谓交易型数据、结构化数据都不关心,不知道怎么把价值体现出来的话,那在更庞大的数据底下的话,他其实要做的事也更复杂。 当然,像这样的企业我们不会认为说在大数据要跨越鸿沟之前我们应该先把重点放在这些身上,我们应该回到那些他已经感觉到说大数据能够带给他商业价值的企业主,我们怎么去满足他。所以我们应该要多谈的是,用了这样的一种大数据的处理分析平台,他是不是能够帮助你更了解你的用户,第二个更了解你的用户想要什么,第三个,当你找到他想要什么的时候,你是不是能够很快速的去勾引他拿一些什么。 所以我们刚才提到的Hadoop,其实我在今年6月去美国硅谷参加一个高峰会的时候,他就有一个演讲。大概这个演讲里头他提及我们说的发展,行业相关的厂商。我们现在谈的很多大数据可以体验的价值,可是那个价值,比如说我们讲BI,这个商业智能,最重要的并不是呈现出很多漂亮的报表出来,重要的是说它能不能增值到某种情况底下现在该采取什么样的行动,所以这个才是最主要提出的事情。再比如说教育来讲,有一些也尝试用大数据的技术做教育上的处理。可是最重要并不是教育的工具本身可以做得很好很漂亮,重要的是参与这个学习的人要得到他要的教育的结果。所以你要看的是结果的本身,而不是看中间有什么智能工具,这个才是企业关注的事情。 这个就提醒我们不要太过技术化,我们应该强调商业价值而不是技术的高超。我觉得对整个大数据的产业来讲,我们这种传统上就是以IT技术为起家为这样的背景做的事情,我们必须要知道怎么跟企业对话,怎么样协助他的营销做的更好,怎么样协助他能够提高。这些事情我们转化成Etu我们知道,因为我们提到这样的事情我们怎么做,所以我们才会很大胆的在第一年,就把商业部分放进来作为我们服务的一块。 也就是说因为一些企业主他已经知道他该去做这些大数据的处理跟分析,可是他却不是那么清清楚楚好在他在企业内部应该把什么东西放进来,数据在哪里,怎么放进来,怎么了解,呈现,最后产生的价值点应该是什么。先透过我们顾问服务去把这些事情理清之后才进行后续的工作。对于他来讲他这过程里面他的KPI,他的投资报酬ROI,我们才跟他定义好,之后才做后续的工作。
主持人:所以我觉得Etu刚开始有这样的工作,可以避免很多弯路。如果我们看去年就会发现我们之前都在谈是一个工具,不是一个技术,我们可以理解为是一个管理工具。所以我觉得像您刚才谈的Etu现在的方式非常好。刚才谈到一个问题,我觉得我还是特别的认同,就是像大数据我们在这个时间段最核心的技术告诉你,它的价值是怎样的。现在围绕大数据有不同的产业,我记得有一篇文章,写的就是大数据,这个写的是两个方面,一个是应用企业来讲,你如果率先使用大数据分析,同时大数据也会挖掘到它的价值,,对于产业的人来讲的话,在这样的状态下获利是比较多的。 所以,这样的话,我觉得,现在我们看的话,大数据产业现在非常好,就像云计算一样,虽然您谈的时候也谈到云计算现在还不能断定未来是什么样子,但已经有一些成功的例子。云计算未来的产业是一个主流的模式。我觉得Etu也是这中间的一环,我们是不是也是,就是从两方面来讲,技术层面和用户来讲,也是他们带给这么高的价值。但从产业来讲我们进入这个产业,是不是这个产业非常好的。
蒋居裕:先回答后面的问题,当然是,不然一群人不用这么辛苦。我们绝对是看到大数据这个产业。像我们刚才分析的,这个产业还处在早期的市场,还没有跨越这个鸿沟。回到第一个问题,我们在企业端,我们怎么让我们的目标客户去知道,这些价值对他们而言是在哪里。然后过程要更加透明化,要他们知道,以便于降低他的不安全感。降低他不安全感还是要给大一个合理的报酬数字说,投入多少会得到多少,所以我们不应该在这个时候就把大数据的价值放到每个产业去。我们必须在里面挑选一些很快能彰显价值的产业。那个价值点会特别的被放大。应该是在这个时间点更强调这些东西,其实刚刚提到的技术产业模型里头,到了后面的时候,你一个技术产品被跨越鸿沟,然后会变成某一个特定行业的某一个特定共同的解决方案。可是这有一个过程就是标准化产品,当你到了一个标准化产品阶段的时候,其实各个行业都会需要它了。就像数据库一样,数据库其实已经部分产业化,只要有IT应用几乎就没有办法。 可是大数据现在的情况还不是这样的,所以你必须择重,去找你的重点行业,重点应用。然后就要尽全力的让这些应用把它的价值点发挥出来,取得第一批企业用户的认同,这个产业才会有未来。
主持人:其实我觉得这个理念真的是相辅相成的,就像您刚刚说的一些企业对大数据不了解,他不知道带给我什么样的东西。其实现在很大一部分企业,他可能有数据,也有产能,但到底是干什么用的没有这个概念。但是我觉得随着我们本身大数据相关的解决方案或者是产品出来,那为什么会有这些东西呢?这个他可能是一个互相促进的过程。其实现在大数据的概念火起来之后,你设想过哪些市场吗?甚至软件厂商数据库的一些厂商,反正都是大数据的解决方案。在企业里放眼一看都是大数据的解决方案,这些大数据的解决方案到底发挥得都是什么样的价值,我们现在也是有数据的产品跟运营,这个到底是什么样的,所以可以把基础性分开讲一下?
蒋居裕:好,我先从一个叫做数据温度的角度来谈这个事情。所谓的数据温度我们可以把企业里面的数据分成三种温度,一个是热数据,热数据就是藏在数据库或者数据仓储里面存放或者处理分析的那些结构化的数据。它的特性就是说它在线调用的频率是相对高的,它随时要在线。它是直接面对很多商务的应用,比如市ERP、CIN、BI这些东西。中间的是温度没有那么高,可是不时要接受一些在线的处理分析,可是它的实时性要求不像热数据这么高,可能是说我一批进来做数据的处理或分析,可能是一两个小时就可以了,我不需要是几秒钟的时间,非得马上把结果呈现出来,这一层就是我们刚才所提到的大数据处理平台所专注要做的事情。这个毕竟还是本身随时要在线查的到。那一些已经过期的,已经不需要在线的,我们就变成冰冷的数据,可能放到一般的储存系统去,那比如有一天我们必须调回来用的时候还可以回传到我们大数据处理平台。有时候我们大数据处理平台处理完的东西,有一些也可以回到数据库或者数据仓库去,就变成一个热数据。 所以这期间在处理这些数据的时候,就必须根据它的时效性、有效性,以及它当时的价值,他必须在里面做数据的企业管理,摆在适当的位置,用适当的处理机制处理掉。所以,从这一点来看的话我们刚刚提到,很多传统数据库,数据仓储,甚至现在很多传统的IT厂商们,他们会去买一些新的技术来补强。他们可能会用一些NPP的DB产品来取代一些数据存储技术。这些都是归类在冰数据。传统上有很多存储设备的厂商,一般来讲他们只做存储不做处理,大家共同针对自己专注而且擅长的部分把价值发挥出来,这整个来,我们用的是说这个不止是大工具,这个叫做完全数据。
主持人:我觉得其实我们分析一些数据,我们把它分为温度的调整,分成三型之后,企业这个感觉就会明晰一些。现在是一个存储的大数据,还是一个软件的大数据。那回到我们刚才说的,其实现在也是在推出我们自己的一个计划,从这一点来讲,这个领域处理得是中间,其实对于这个来讲,我相信其实对于热数据这种处理得价值,现在企业已经到了一定的程度。那对于另外企业用数据处理的话,那个价值在哪里?
蒋居裕:其实冷数据这个是不处理,只存储,把它放进去,等到真正调用的时候再出来。可是问题就是出在这里,当你把数据往这种冷存储设备去放的时候,一旦要回来调用,因为它是大数据。我们刚才讲说大家都说是大数据公司,都有大数据的解决办法跟产品,但就是在这三层里面你都可以放很多数据。可能都不是传统这种数据级别说,几百个一两百,没有问题,大家都是大数据厂商。你在这三个级别里面做你擅长的事情,这个没有问题。所以我也不去否认说大家都是大数据公司,大数据产品。 但是回过头来,我们在中间这一层,它的特性是什么?是第一个,比较偏批次这种数据处理。这个批次的数据处理,他又包含了很多种数据格式,我们一般常常讲的就是说很多所谓的非结构化数据,其实我们非结构化还有两种,一种是半结构化,半结构化是什么?就像是网络预制的,或者点击留下来的记录。很多,甚至有些是从传统的数据库里面扩出来,变成一个数据库中间的空白隔开的,或者是逗点隔开的。虽然很大量,它是半结构化数据。 另外一种是纯粹纯粹的非结构化数据。这种就是各种不同的图形、档案,可能是办公室相关的文档。可能是一个声音的档案,可能是多媒体的视讯。这些东西都有某种处理,分析查询的价值。这些东西格式很多,很多很多的格式,其实都可以在这个团队平台上面获得一种批次处理得效能。 再来的话,在处理得时效性上面因为他是分布式的,你可以想象今天嫌批次处理得速度不够,那你就加一样效果规格的硬件就可以了。就可以把整个处理得速度加快。所以这里面最重要的是在中间这一层有处理得内涵,有处理得能力。再加上有一定的处理数据,可以处理各种不同的格式。这个就是中间这一层的价值所在。
主持人:是,我还有一个问题,这个问题可能比较基础一些。您刚才也说道了冷热数据,这两个处理的话怎么去?对企业应用…,这个中间是不是有不一样?
蒋居裕:都有,这个问题在我们看到的上面来看的话,有些就是两个数据处理同时并存。那个价值对企业主来讲才能呈现出来。我举个例子,在电子商务里头,我们现在很关注的一个是做推荐,这个推荐重点可能是在要让你到这个电子商务网站知道你现在看的东西其他人也再关注,其他人会关注什么另外一个商品。可是这个推荐的清单对使用的人是怎么样产生的,这个其实背后有所有的,就是这个电子商务有两百万个会员,这两百万个会员可能在网站里面十万种产品做了不同程度的浏览行为。这些都是半结构化数据,或者是团队或Etu的平台做处理之后,然后我们把商品这些找出来,那做什么事情呢?我们就把对一个特定的商品关联到了其他50项、100项商品,里面有做重要性的排序,把它放到这个数据库里面,所以当浏览者上到网站的时候,看到这个清单,不管是十项还是一百项都是从这个结构化数据库捞出来的。可是这个清单是谁给他的?是我们Etu给他的。 Etu为什么可以给他,是因为前面有这些半结构化大量的数据,所以这个是串起来的,可是另外一些例子是Etu平台做到就完了。比如我们做搜索,这个搜索可能是针对千万个或者上亿个的搜索,也有可能是针对一页的网页,但是你要把关键字找出来,这些不管是什么数据其实都是非结构化的数据。这个东西进入我们Etu平台里面我们可以对他进行索引,然后提供像百度或者谷歌那样关键字搜寻的网页,很简单。这个直接进行关键字查询之后结果就出来了,这是大家很关心的事情。可是这个里面我们可以不需要这个数据库,不需要些关键字的。 主持人:那所以这样的话我们Etu在推广的过程当中,可能会遇到不同的问题,这可能是结合企业的需求来讲的。比如说我的某些需求是需要这两个依存,这个可能就有一个前提。但假如你只是仅仅对一些图片或者视频这些的话,那我们是不是可以用分布式的这种?是不是可以这样界定?
蒋居裕:是的。
主持人:那您现在推进的一个过程当中,哪些企业的需求更强烈一些?
蒋居裕:实如我们所分析的,我们今年在整个市场上会挑一些重点产业,打一些重点应用来凸显这个价值,这些产业是什么?我们一开始锁定的像电信,这些运营商其实里面有很多很多的运营都可以用大数据的处理做。比如说刚刚提到的,它的使用的分群,找出ERP,找到对应的VIP该有的待遇。但就是说在找出VIP之前他也想知道到底用他的3G网络上网的使用者到底去了哪里,看了哪些内容。因为他能分析到这一点的话就可以做后续增值的服务。比如说推送广告。另外他们可能会希望做到或者电信设备的优化工作。这些东西不管是跟使用者相关,还是说为了保障使用者在网络里面有更高品质的网络服务。那这些东西其实都很直接很直接,作为运营商要有这些东西才有办法让他的客户满意度提高。 另外像在银行、保险,我刚才提到的大量图片的搜寻,他们内部也会这样。因为你想每一家保险公司后面都有成千上万的使用者,他们每一张保单的费用都会很多文件,这些文件都会扫描放到他的存储系统里去。可是今天他必须针对某一个保护,某一个事件发生的时候,要把相关的调阅出来的时候,如果没有中间这一层的索取功能的话会很痛苦。上亿个存档如果放到冷数据存在系统,应该先到处理搜寻的地方。可是如果直接放在我们Etu的话,直接就可以调用。刚才是提到电商,我们今年特别针对电商这个市场也做了一个出来。那你可能会说电商不就是互联网的一种企业嘛,没有错,可是它跟那些像百度、腾讯这一些他们自己已经用很多大数据处理得技术人来说,他们比较多还是偏重于他们的一部分。技术部分比较愿意采用外厂商提供给他们的。这是我们观察到的市场的所谓的细耕。 要做细耕的过程里面绝对会有需求说,透过千万会员跟浏览行为做出的推荐。这个也可以用人为的方式做推荐,因为人去输入说在这个数据库里面相关的数据,其实还是可以给你一个推荐表,可是这个推荐表准不准?不准。因为是为了促销某一个东西,但我们今天给他的是一个基于他的浏览行为产生的。这个就是非常系统化的工作了,这个工作里面没有什么介入的空间,因为人在非常大量的数据里面操控它,这件事情是做起来没有效率的事情。 所以当他有关联性,可以朝着这种机制,加上自动化大数据的机制,他就可以结合起来,提供给他最好的一种体验。
主持人:其实我们自己也能感受到,比如说某个电商,网上购物已经是很常规的操作行为的。我现在越来越多的发现,在不同的网站,推荐所有的东西,能够让我再去选择,推荐出来的东西能够让我有兴趣选一下。所以我觉得像您刚才说的其实对于营销本身来讲的话,其实这是很好的帮助,但是您刚才说的这些的话,我觉得对于很多企业来讲,都会是一个非常好的部分,其实我们现在去汇总一下,现在我们关注的这些行业恰恰也是非常关注的,对于客户的体验。所以在这些产业里面就是会更加能够先感知到的产业。当然,我觉得其实对各个产业来讲,因为我觉得任何一个做营销的公司,除非你真的是一个垄断,我不需要管理。您在这个过程当中谈到hadoop,这个词也是大家非常知道的,听了很多次了,我也听了很多次。但可能会有一些公司有这样的合作。具体是什么时候的合作?
蒋居裕:其实我们在谈Hadoop,所以在这个生态系里头还是美国走在最前面。根据我这两年,其实我都有持续参加美国相关的峰会。我所看到的情况就是这里面最主要有几个角色,一个是做…各个不同的发行版本。就类似于我们会有不同的发行商一样,虽然…现在最核心的版本是来自于(57:22…)。可是也很多会把它包成他自己的版本,中间的核心是不会变的,可是会有一些相对的管理工具放在上面。我们一定要跟某一个发行版本上工作,我们不会去自己做这件事情。 再来的话就是有一些整合性的工具开发商,他开发的这个工具,他企图要做的是希望把这个大数据的使用权利从程序员手上解放到那一些做数据分析的人,以及一些商务的使用者身上。比如说我只会按Excel,那我们用Excel来存储放在你Etu上面的规划数据呢,这个目前已经是可行的,只是说没有相当的成熟。 所以,我们一个是发行商一个就是这种整合性的工具开发上。这是目前Etu在整个生态系里面就有合作的。再一个我们Etu的一体机,本身是为了服务层,其实除了我们自己之外我们还是希望有一些不同的行业里面还有价值开发能力的,就是程序的就可以直接拿去用,就不用自己面对那么复杂的集群,要去做部署的这件事情。所以另外一个方面来看,面对市场我们也要集结一批在这个平台上面开发应用能力的价值开发商,这个就是我们目前针对整个生态系统本身在做的一些不同的事情。
主持人:也就是说一体机我们提供的是这样的平台,接下来整个应用可能也会共同的提供一些价值?所以包含这两个方式?
蒋居裕:对。
主持人:是这样的,也是我们现在当下比较重要的模式,大家比较擅长的事情,大家可以互相借鉴。其实这个对于客户来讲其实也是一个更大价值的体现。我觉得最后一个问题我是比较感兴趣的,就是我们在谈大数据时间也不是很长,整个大数据的状态也有很多变化等等。我们如果看未来的话,因为它本身就是IT一个(60:23…),它一直是在这个水上,那我们知道我们再往后看,同时在大数据整个分析领域,价值挖掘这个里面围绕大数据都有什么样的产业?包括像我们这样的产业,其他的产业接下来的发展方向会是什么?
蒋居裕:我觉得这个发展方向还是回到刚才我们所的现状,这个现状就是我们还没有跨越那个鸿沟,所以我们现在最重要的事情还是特定的行业里头,特定的应用做出来。把特定的商业价值贡献出来。这个是对于以hadoop为中心的生态系最重要的关键任务。如果这个关键任务不能达成的话,今天我们所做的这些努力可能就白费了。但是我们非作不可,因为第一个我们要认知,第二个我们这个专业,甚至刚才提到了有很多这种国际型的大厂都进来了,大数据的市场。但其实它在每,它有对应的产品跟技术人员,可是他在大中华地区却没有对应的技术支持人才,他会寻求跟我们合作可是他愿意在很多地方,在数据库、数据仓储那边获得更大的利益。在这样的情况底下其实就有很作的空间。 再一个他们都没有技术支持的人了,更何况说要开发一个解决方案,一个行业的应用,这个他们也没有。所以,我们三层合起来就是一个很完整的企业数据。在这个情况底下其实我们可以合作的。
主持人:其实对于企业来讲,这个就是说像知意图这样的有一定的空间,再一个我们有合作的空间,另外一个对于企业来讲他是需要这样的结合。所以,我觉得确实是在聊完以后的感觉就明确了,已经不那么抽象了。不是那么迷惘的看这个概念,我们这样聊完了之后就发现确实是在你身边,你可能已经身在其中。我们也是希望这个过程当中越来越多的企业发现它的价值,越来越多的企业能够成功获利,当然也包括像知意图这样的。
蒋居裕:谢谢。
主持人:谢谢您。
网友评论
更多
往期视频
|
主持人介绍
程艳玲kaiyun体育官方人口 总编
在主持对话及相关栏目过程中,采访过近百位业界领袖和企业CIO,策划主导过多场在业界有影响力的大型活动,在管理信息化领域有着深厚的经验积累。
现场图片
相关文章
栏目简介
致力于行业发展,关注企业信息化需求领域的实践和动态,kaiyun体育官方人口 推出《畅享视频》栏目,提供专业资讯与商务服务,共话企业信息化建设的成功之道。 《畅享视频》与知名专家、企业高层、成功客户代表等各类权威人士共同参与,分享权威人士的最新观点和体会,探讨企业经营真谛,与专家之家对话。锁定信息化领域,从不同的角度深入对话探讨,理论、实践、引导和执行的强力组合,以“共享”理念,与您分享! 幕后制作:
|
|