数据仓库选型

作者:姜玲
2007/4/2 9:17:52
本文关键字: ttnn 2006年03期

Dina_zhang问道:作为一个用户,我们在数据仓库选型的过程中应该最为关注哪几方面。
选型一直困扰我们,看了多家厂商的产品和方案,但还是无法确定哪个方案是适合我们的

Liu Annie
20060315

如果你们实在确定不下来,请咨询公司吧,请他们帮你们提供方案,当然是要掏不少的
钞票的。

整体而言,要看你们的数据规模,如果是企业级数据仓库,TB级的数据量,NCR的
Teradata自然是大拿,前台展现方面,厂商也就那么几家,国内国外也有排名,SAS,
BO, Cognos, IBI, Micro Strategy都排在前面的。当然还有些小公司自个开发的东西
,说不准的,也不好说。IBM还提供一整套的解决方案呢。

自己选不定,还可以弄个RFI(Request For Information)出去,发给那些厂商,请他
们提供解决方案,你们自个再评估一下。

刘庆
20060315

又是选型,对于一个刚开始数据仓库项目的企业,这是不可缺少的部分。但至今不明白这里面究竟是否有什么客观的标准。

就那几家产品呗。十八摸的、甲骨文的、恩西阿的或是微软的,这都是要钱的。前几天有人在讨论开源的方案不也是包括数据库产品吗。他们都说自己是"最领先"的数据¬仓库厂商,说自己提供"全方位"的解决方案。那些套话怎么听着都是一样的呢?

要是请他们的售前给洗脑,能够解决实际困难的不多。大多数情况下,恐怕还是将自己的产品说得天花乱坠,然后给出一份哪儿提供的基准测试报告,显示他的产品在各项¬指标上如何领先于对手。

这样的洗脑够让人糊涂的了,里面包含太多的利益冲突,哪里还谈什么客观评价。
但企业的领导又要这样一份评估报告,因为这是形式嘛。至于产品的实际效果,恐怕期待着不要出大问题就行。因此,很多的产品选型都是在桌面下面进行的。

反正这些产品都是占有一定市场份额的产品,大家都知道一句话,"没有最好的,只有最合适的"。作为数据仓库产品来说,什么是最合适?也就是成本和企业人员对这个¬产品的熟悉程度,还有你跟人家厂商关系谈的好不好。

首先看成本。恩西阿、十八摸和甲骨文的,都是齁贵,塞贝斯也不便宜,看项目预算情况了。微软的产品便宜些,可如果你的数据量够大,恐怕又看不起他,就更别谈不要¬钱的开源产品矣。当然,现在还有将成本的概念转移,说人员学习、项目延期、客户满意度低都作为成本考虑。但此处说得仅是产品成本而已。

再看人员的经验,人的学习曲线是不可避免的,不要妄想人们接触一个新产品就能立马成为高手,能够基于陌生的产品作出良好架构。这方面,显然甲骨文和微软有优势,¬因为在这两家产品上有经验的人多,好找。当然,如果你们原来的业务系统用的就是这几家产品中间之一,不妨仍然用它作数据仓库吧。

还得看你和厂家的关系,项目实施过程中免不了要人家支持。如果你是一个大企业,还好,厂家跟在你屁股后面跑,如果你是个小单位,项目预算小,对不起,哪些大厂的¬销售将不会低下他们高贵的头。因此,还是观察观察,哪个厂家会会可能给出更大的支持吧。
如果从这三方面还是没有决定该选哪个,最后一招:掷骰子。

Innovate
20060315

其实也不是,我就听说有的理智的客户,对于只知道吹嘘概念和产品,一直不切入主题,针对实际情况解决问题的方案,是直接请出去的。如果对方有水平,有实力,可以¬根据你们的实际情况直接把脉,所以是骡子是马需要拉出来遛一下。

举个例子,你们企业最近某品牌销售直线下降,那么站在你们的角度,你们最需要的是找到原因,是质量问题,代理商销售不力,还是服务下降,口碑太差?那么真正有实¬力的厂商的咨询顾问,会给你说如何搭建平台,通过怎样的模型找到具体的原因,然后你们分析出来后,直接查询到具体的数据,落实到实处,解决问题。类似问题都可以¬这样的方式交流,你们作为客户放心,他们作为厂商也展示了实力,并不是空虚来风,一点点概念和产品的人到处可以见,失败的例子也到处都是,就需要谨慎考虑。再有¬经验的人,再号称最好的数据仓库厂商,如果这些都说不出,你可以直接请他们出去,因为他们帮不上你什么忙,只是去蒙钱的。

Wishwang
20060317

我是搞银行IT的,负责一个股份制商业银行(一般都这么讲的)地区分行的IT开发工作。以前,我是搞业务系统的(银行业务大家都知道啦,就是联机事务处理+批处¬理),对BI这块真是不太了解。

2004年,做了一个业绩考核,当时也没想用什么BI产品。搭了一个J2EE环境,应用服务器用WEBSPHERE,数据库服务器用AS/400,数据库当然是¬DB2,设计了一个指标系统,跟业务部门讨论了一个展示界面,一个报表系统,找了个合作公司就开始干了。干了3个月,成了,业务部门用用也还行。但是我一直担心¬几个问题:

1.AS/400的硬盘只有180G,只能存放一年的历史数据和分析结果,而AS/400的硬盘又狂贵。
2.用于目前数据主要来源于业务系统,业务系统也是AS/400,我FTP用来GET
源数据,自己写程序加载到考核系统所要的数据库中,目前也还行。但以后如果要引入其它数据库的数据,我就只能用ODBC了,不知道效率如何。
3.我用的这台400有3个CPU,我又有一个并行平台,但批处理要跑4个多小时(包括数据加载),以后应用再多,处理能力不知道够不够。
4.WEB用JSP+EJB,展示稍微的土一点,好象开发也不太方便。

去年,行里业务开会,谈到我行的IT支撑的问题。就说最大的问题是缺少客户分析,希望IT能在客户分析和客户拓展方面帮助他们。客户分析,可不就是BI的强项吗¬,再说,利用这个项目搭一个数据仓库,不就是可以解决我考核系统的构架上遇到的问题吗。这才考虑用BI产品来做这个事情。

找了几个公司来谈了谈,学习了一些知识,也发现了一些问题。

先说知识吧:

1.知道了ETL,星型模型,多维存储,OLAP,前台展示工具
2.知道了简单的应用不一定要使用工具ETL
3.知道了简单的分析不一定要多维数据库,用关系数据库也行。
4.知道了卖前台展示工具的最多
5.知道了元数据管理是什么东东,自己觉得还满重要的。
6.知道了TERADATA,ESSBASE,SQL SERVER(按花钱次序排列)
7.知道了DATASTAGE, Informatica
8.知道了BRIO,BO,COGNOS

问题呢:

1.做电信移动的多,作银行的少。

2.说到银行应用,居然是做考核的最多,中间还有一些信贷管理什么的,客户分析的最少。没做过,意味着没有现成的业务模型好借鉴啊。

3.投资有限,ETL,多维数据库只能选一个用产品实现,选哪个呢。

4.用SQLSERVER+前台展示,倒是都有了,性能如何?还有病毒咋办。

5.每个公司都要成功案例,典型用户。由于银行业我比较熟,具体自己去了解一下,远没有这么美好。

其中最头痛的还是业务模型,实在不行,我就从头坐起,去和业务部门分析业务模型吧。项目风险不好控制啊。

先聊这些吧,有空在补充

刘庆
20060317

未识兄,你说的这个"业务模型"指的是什么?是只用于客户分析的模型还是整个银行业务的模型?

关于"一体儿",其实如果数据源比较少,而且到目标没有复杂的转换,自己开发倒是无妨,否则,到也是比较麻烦的。一位也是银行业甲方作数据仓库系统的朋友,曾告¬诉我,他们的系统开始就是集成商自己开发程序装载,但后来被这些程序折磨地够呛。因为原来开发的人都不知道哪儿去了,中国作软件系统的,人称铁打的营盘流水的兵¬。可这些程序往往还是这些"兵"设计的,至于文档,一贯是没有多少的。如此,后来考虑用工具,可见这个出发点主要是从易维护的角度考虑的。

对是自己开发还是购买工具,这种争论是不亦乐乎。我想如果你现在的程序还能够应付得过来的话,当然可以不必去买罗,如果你要规划一个大系统,恐怕得考虑考虑,毕¬竟工具在你关注得元数据管理这块已经做了相当得工作矣。

至于多维数据库,不买还想自己开发啊,只听过国内有开发"弱老婆"产品的,比如什么"商业指南针",没听过有开发"没老婆"的。

如果投资有限,选用微软的解决方案没什么不好,很理智。至于病毒吗,嘿嘿,就多防这点了,经常备份呗。

或者考虑刚果诺斯(cognos),反正他们一体儿也有,没老婆也有,还有前端展现,也有绩效管理仪表盘之类的,当然一套下来估计价钱也不便宜。

Goldenfish
20060317

我觉得工具选择时要考虑的几个问题是: 1.DW选择封闭平台还是开放平台。例如选择Teradata,它是软硬件系统一起的,虽昂贵但性能好;选择oracle,SQLServer等,性价比相对要¬好; 2.ETL工具的选择要量力而行,实在要节省成本就写SQL脚本; 3.前端展现的工具大致功能都差不多,选哪个都不离谱。

银行进行客户关系管理的迫切性目前看来远不如电信业,因为业务还比较垄断,各自市场份额也比较稳定。银行进行数据仓库建设的原动力很大程度来源于上级监管(风险¬控制)和经营分析(简单说还是业务和产品为中心)的需求。业务模型大公司都有提供,例如NCR,IBM。但这些理论完美的模型都得做大量的客户化才行,因为中国¬银行业务的现状跟国外差别太大。

Happy
20060317

如果让我在ETL工具和多维数据库之间只能选择一个的话,我现在一定先选择ETL工具。凡是开发过数据仓库项目的人都了解ETL开发工作量的大小,也一定亲身体¬会过在没有完善的metadata支持下的需求变更对于ETL的影响。一个合适的ETL工具对于建立数据仓库项目的基础架构是很必要的(当然ETL不是关键因素¬)。 微软的SQL server 2005既支持ROLAP又支持MOLAP,即使现在不选择多维数据库,可以先用星型模型来设计,在设计时考虑到以后是否要用多维数据库就可以了。

试想你想盖一个大楼,你是一定是先挖好地基,然后再一层一层的盖。

责编:姜玲
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
Baidu
map