洞悉数据,创想未来,我们一起玩转大数据
————畅享IT讲堂演讲实录

来源: kaiyun体育官方人口
2015/9/11 14:14:34
奥威软件首席咨询顾问邹斌分享“洞悉数据,创想未来,我们一起玩转大数据”

分享到: 新浪微博 腾讯微博
本文关键字: 大数据

大家下午好,我是邹斌,今天的演讲主题是洞悉数据,创想未来,一起玩转大数据,我们在做BI其实只是知识的搬运工,更多的可能是从客户的需求当中来,帮助客户解决一些问题,现在大数据的概念比较时髦,大家都比较关注,想想我们所理解的大数据再落到企业,如何用好这些数据。

今天分享的内容主要包括:大数据是什么?BI是什么?数据会骗人?如何玩转企业大数据?我们要的到底是什么?

这张图片中的人是比尔•盖茨,“这张光盘能够记录的内容比我身下所有的这些纸张都要多”,比尔•盖茨在 1994 年如是说,照片由国家地理的记者于 1994 年拍摄,花了一个月时间。比尔•盖茨身下一共有 33 万张纸,当时将这些纸张放在哪里都成为了一大难题,唯一的方法就是将纸像餐巾一样堆在钢板底座上,然后用线缆从中间固定,听起来很荒谬。比尔盖茨欣然接受,坐在了这堆纸上。于是就有了这张能够证明科技发展力量的照片。而2013年全球所产生的数据,如果刻成光盘,再摞起来,其高度是从地球到月球的距离的5倍。应该请google、facebook或中国的BAT的老大也向比尔学习一下,去太空拍个照,做个纪念。大数据到底有多大?有多少维度?多大颗粒度?多少相关性?如何存贮?这个不是我们今天探讨的范围,我今天只想讲讲我自己对大数据的理解。

信息量越来越大,就算我们不知道大数据,其实它已经把我们日常的生活基本渗透了衣食住行,猜您喜欢;购买某个商品同时购买了其他哪些商品?百分比有多少?扫一下条码,就知道价格。甚至已经有的网站可以帮你预测某个商品未来的价格走势,如果不准,还敢赔差价!吃饭可以打开团购网或点评网,就可以知道哪里好吃,哪里有优惠。出行,很快可以知道哪天有便宜的机票,预订好最近最省的酒店。

大数据改变了什么?通过海量的数据处理让我们做决策时变的更轻松,更靠谱。大数据是怎么做到的?Less is More化繁为简,越不繁,越不凡!对于我们在电商平台上购买东西,就几个数据就可以让我们做出正确的决策:卖出多少,好评多少,价格趋势,大家都在买什么?当然大数据有其他特点,多维度、立体化、相关性。

其实刚开始大家都觉得大数据是一种负债,因为数据量大了我们要买硬盘,存储,这样的话其实数据就是躺在那里没有价值,慢慢的就觉得数据是一种知识,就变得有价值,到现在大家都发现不但可以成为知识,还可以形成利润,其实大数据终极的目标也是这样能产生利润。

BI这个词大家已经知道了很多年,但是我们看目前大家对他的理解也有一些混淆,所以我们讲一下我们所理解的BI是什么?作为一种金字塔尖的一种工具,就必然要说到信息化其他一些息息相关的系统关联,成功实施ERP的效益分析,大家都知道,ERP实施最大的效益就是提高了效率。但是我们希望直观的利用ERP里的数据进行决策分析时,却变得非常困难。

我们来看看这张图,谁能5秒之内告诉我,图中一共有多少根火柴?ERP里面的数据由于跟业务紧密联系,所以,数据的存放不利于我们进行统计分析。就好比这张图中的火柴,看起来杂乱无章。如果把火柴按序排好之后呢?大家都能一眼看出,图中总共有40根火柴。

管理决策面临的困境,有问题吗?好象没有;问题是什么?不是很清楚;问题大吗?应该不大;原因是什么?可能是……;解决方案?试试A方案;有改善吗?效果还行。一般都是这些非数字化的答案,这对决策者来说是非常痛苦的,那怎么办呢?报表不是可以解决吗?多做点报表不就可以了?

企业信息化的技术基本上都来自于实践,遇到了困难就研究了新的技术来解决,BI本质上来讲是是决策者管理的工具。商业智能是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助企业进行决策支持。

首先数据要变成有价值的信息必然要经过清洗,从信息到知识,可复制性同时要把所有的知识分类,变成一个个的主题,构建些知识模型,知识到决策,形成平台化真正做到分享,通过转变为知识来提高决策水平。应该是Knowhow,而不仅仅是knowwhat。知其然,更要知其所以然。是不是多做些报表,就可以解决这个问题呢?报表能解决分析的需求吗?

7-11便利店市场部门进行数据分析时发现,某个门店的面包一直卖的都非常好,可是,近期却下滑的非常厉害。于是,制定了一个促销方案,实施下去后对比分析发现,促销根本没有效果。于是,市场部门的同事去现场调研,发现原来这个店在一个水库的旁边,平常经常有许多钓鱼爱好者来买面包当鱼饵,所以以前一直卖的比较好,最近不好的原因是天气原因,导致前来钓鱼的人大为减少,所以,促销是没有任何意义的。

小红是一个某服装集团某店铺的业务员,有近千平米的营业面积,有50位和她一样的店员。她一直是集团的标兵,因为从数据上看,她从一来公司起,就一直是第一名。但是,有一天,这个店换了一个新店长,从此,小红的业绩下滑的特别厉害,有时甚至排在最后几名。难道是与新来的店长闹矛盾?调到其他店铺也一样。最后,通过对业务员及时段的综合分析发现,原来是因为排班导致小红的业绩比别人都好。

从上述两个例子我们发现,不全面的数据,或者仅仅是依靠数据决策,是存在陷阱的。只有全面的分析数据关联性,并且结合现场的调研,才能真正利用好数据。

通过仪表盘/管理驾驶舱直观掌握关键经营数据,如果在领导的办公室里放一块屏幕,让领导每天都可以看到企业经营的关键数据,大家可以想像一下,领导每天的心情是怎么样的?其实领导是很可怜的,企业那么大,人那么多,事情那么多,很多情况下,企业经营发现的问题,领导是最后一个知道的。为什么呢?以前呢,没有系统,数据掌握在每个人头脑里,有了系统之后,本以为信息实现共享了,透明了。但没想到,领导看的报表仍然是手工整理的。于是乎,很多企业一开会,1个半小时的会议,前1个小时各部门都在扯皮对数。如果你是领导,在开这样的会,桌上厚厚的一摞报表,各部门争的面红耳赤,请计算一下此时你的心理阴影面积是多大?

通过移动终端访问使一切尽在“掌”握,移动BI新趋势——基于微信,不用安装新的APP,微信的活跃度最高,不用输入用户名密码,不但可以主动查询,还可以收到推送的信息,安全系数最高,移动应用现在大家越来越关注,移动的应用模式以前主要是采取app的方式,后来随着html5被广泛支持,浏览器的方式也开始多了起来,今天,我们向大家推荐的是基于微信平台的应用。从技术上讲,其实基于微信平台就是将原来的APP与浏览器访问两种方式合二为一,即利用微信这个APP进入,访问时仍然是通过浏览器访问。但带来的好处却是大大的。

本月万达店在集团100多个门店中,销额排名第三名,该不该表扬?100多个门店,前3名,理所当然应该得到表扬呀。如果你是某手机零售集团的运营总监,你会怎么办?回答这个问题,是不能仅从一个排行榜就可以得到结论的,而需要从不同维度来分析:1、这个月第三名,上个月呢?如果上个月是第1名,那该不该表扬呢?2、如果个月的目标完成率仅80%呢?3、如果这个店处于核心商圈,该店iphone5S的销量占到了60%,而前个月iphone5S刚好上市呢?4、如果这个店本月因为所在商场举办20周年店庆促销活动呢?5、如果这个店的销额虽然不错,但客单价却下降呢?

原来,要回答这么一个看似简单的问题,原来没那么简单呢。所以,要真正根据数据来决策,就需要我们不仅仅看到冰山一角,还要能探究一角之下的水下世界。

Power-BI应用蓝图,多维动态+钻取,多角度透视一角之下的冰山,第三名该不该表扬?应用场景之销售库存结构分析,应用场景之价格结构分析,应用场景之因素分析,应用场景之综合排名,应用场景之任意时间段分析,应用场景之通过层层钻取轻松还原事实。

应用场景之销售库存结构分析,通过某品类在销售中的占比与库存中的占比来分析其库存是否合理。销售比重>库存比重,说明该品类占用了较小的库存资金,但实现了较大的销售。销售比重与库存比重接近,则较为合理。销售比重<库存比重,不合理,占用过多库存,应该对其进行梳理调整。

应用场景之价格结构分析,库存单价>销售单价,说明该品类的库存档次高于门店商圈的群体消费档次,占用资金和库存多,但不动销,不产生效益,不合理。库存单价与销售单价接近,合理。库存单价<销售单价,说明该品类的库存档次低于门店商圈的群体消费档次,建议根据商圈消费特点,适当提高该品类的价格水平,以挖掘消费潜力,创造更多的销售。

应用场景之任意时间段分析,今年的国庆假期与去年的国庆假期在销售上有什么样的变化?某项促销前后的销售情况是否达到预期?应用场景之通过层层钻取轻松还原事实,收入与利润都没有完成预算,费用却超标5%,为什么会这样?

应用场景之因素分析,2010年5月公司整体收入同比增长了7.7%,客单价与客流量的影响是正向的还是负向的,到底哪个影响作用更大?各门店的情况又是怎么样的?

应用场景之综合排名,快速定位三好学生与偏科生,从这张图上,大家看看,能看到什么信息?能发现什么问题?这里可以看到大家想一下,问题可能出在哪里?新洲店的毛利率排名虽然是第1名,但收入却排在第9名,其他指标也都不理想。一般情况下,是因为这个门店销售的主要是低价格高毛利的药品。下面,我们来验证一下想法是不是对的。

建立数据中心整合各业务数据,统一报表平台,最终为决策服务。

我们要的到底是什么?报表?BI?传统BI?敏捷BI?要不要数据仓库?要不要OLAP?

是不是多做些报表,就可以解决这个问题呢?首先,我们来看两个概念:查询与分析。报表能解决分析的需求吗?报表最大的问题是什么?无法根据人脑的决策思维习惯,提供连续的数据。于是,Power-BI出现了。

其实,不管是报表,还是BI,不管是敏捷式BI还是传统BI,总的来说,都是拿业务系统的数据进行展现。从这张图可以看出报表、敏捷BI及传统BI在技术路线上的不同。报表或敏捷BI走的是左边蓝色的路径,一般倾向于直接在业务数据库中取数做展现,如果涉及到多系统,则被迫做数据仓库。所以一般在实施开发时,会使用开源的ETL工具或者数据库自带的ETL工具来交付数据仓库的构建。传统的BI则是走的是中间红色的路径,它先创建数据仓库,再创建多维分析模型,再做前端展现,一步一步的来。于是,大家就开始讨论,到底要不要建数据仓库?要不要建OLAP模型?其实,要不要,不取决于我们对BI工具的认知,而取决于我们需求的复杂性。首先来看下要不要数据仓库的问题,其实,这个问题可能大家已经不太纠结了,因为,只要需求跨多业务系统,就必须要建数据仓库。而构建数据仓库,主要的困难除了ETL工具本身是否简单外,更多的在于数据规范性及质量好不好。以前手工做报表,很多计算规则都是人为在判断和调整,而一旦通过ETL来完成,则一定要规范,而通常情况下,大家都很难接受BI算出来的与原来手工算出来的有偏差,但实践中得到验证的结果是,很多情况下都是因为手工制作的报表本身就不正确。大家都很难接受的原因是因为,你这是让我证明自己是错误的,并且证明自己原来一直是错误的,大家想想看,这需要多大的勇气才能做到?——其实,按照大数据的精神,我们并不要求精确,我们只想大家认可或统一一个计算逻辑,就算这个计算逻辑并不能像人一样,精准的根据实际情况来调整,我们只是希望有了一个统一的计算逻辑,大家不要老是吵架,并且,这个结果能够揭示出正确的规律即可。比如我们能看到这个月每日销售的趋势并不乐观,无须计较每天的销售额与财务的数据对比差了几百块,而这几百块是因为未能及时上缴现金造成的。而至于要不要OLAP,现在大家争论的比较多。敏捷BI说,OLAP虽然很好,但需要我们提前预设好模型,所以,对于业务分析人员来说,就不敏捷,就显的有些重。好吧,我们仍然从实际需求的角度出发,来看看,到底要不要OLAP。哪些需求必须用OLAP来解决或用OLAP来解决会更好呢?1、对于时间维度要求较高的需求。这个在零售行业表现的非常突出。不但有基本的年-月-日的需求,还有年周、月周、阴历、阳历、节假日等特殊的需求。注意,一旦时间维度要求较高,带来的各种聚合计算就变得更复杂。比如同比,2015-8-27日的同比应该怎么计算?简单的来说,就是把2014-8-27的数据拿出来对比。但在零售实务中,这样的对比通常是没有意义的,因为可能2014年的这一天是平常日,而2015年的是周末,或者2014年这一天是小长假,而2015年不是,甚至可能今年2月有29号,去年只有28号等等。在这要的需求下,OLAP可以应付自如。2、如果有类似这样的需求,比如在很多ERP中,许多基础资料的编码规则中,是有上下级关系的,比如科目编码包括一级、二级、三级到明细。如果我们想得到一个可以很轻松的实现层层展开或收缩的报表,用OLAP就非常简单,只要使用父子维度即可,但如果不做OLAP,那该怎么解决呢?得将科目表增加几个字段,如一级科目、二级科目、三级科目、四级科目等,然后解析编码规则,分别做好转置。这样,才有可能实现。好吧这样就算困难点也是可以的。但实践中,并不是每个科目的层级都是一样的,有些有2级,有些是3级,有些是6级。今年最多6级,明年又增加了1级,到了7级。怎么办?可能你会说,我们现在的报表根本不需要到这么明细。大家想想?敏捷BI所倡导的敏捷是什么?不就是不管要什么报表,不但不要IT建模,连IT都不要找,可以自助完成吗?3、复杂的聚合,如我们经常会用到本月累计或本年累计,或者TOP N%,类似这样的需求,在OLAP建模中可以轻松解决,而基于SQL查询,则会变得异常困难;4、运行效率问题。OLAP一般是预先将各种聚合计算好,存贮在硬盘上,待查询时,只是读取出来即可。而没有OLAP的计算,则是在查询时完成的,当然,也许可以内存中计算,也许有缓存,可能会让你感觉快一点,但大家可以简单的思考一下,不管多少人用,不管一个聚合来源数据记录条数是1亿还是10亿,OLAP的读取结果的方式是不会有任何效率损失的。 所以,如果你的数据量不小,用户也不少,且不想投入巨大的硬件成本的话,OLAP将是一种更好的选择。5、OLAP技术更适合多维度分析。什么是多维度分析?是可以在一张报表中体现多个维度?还是可以实现多个维度的任意筛选?还是可以实现任意维度的组合?这些都不重要,重要的是,多维度分析是想解决实际需求中,类似第三名值得表扬吗?这样的问题。好吧,我们都知道 OLAP有这般那般百般好,只是,要创建OLAP分析模型太麻烦了,太重了!其实,创建OLAP没有大家想像的复杂,要知道,BI的开发真正复杂的是ETL构建数据仓库的过程,如果数据仓库构建 好了,仅是创建一个OLAP,在某些BI产品中,其实只需要几分钟的事情,如果这几分钟,可以换来各种复杂未知的分析场景都可以满足,那么,IT还有什么可以拒绝的呢?

最后总结下,大数据的核心就是化繁为简,并影响我们决策。数据有的时候是会骗人的,所以,我们要通过实地调研来修正数据的结果;至于BI,它是一种让大数据理念落地的一种工具,它的基础就是报表,再高级点就是图表,再高级点则是数据可视化,但它终极目标仍然是要解决数据分析的问题,而不仅仅是结果展示。所以,选择什么样的工具,要根据企业的业务特征及需求来确定。

责编:何鹏
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map