当前位置：首页> BI-商业智能> BI理论> 正文

数据仓库：有多少数据?

来源：中国商业智能网

2011/9/14 15:19:34

大中小

由大量数据引发的问题有：是否可以预测是一个问题；加载数据是一个问题；整理数据是一个问题；索引数据是一个问题；有效地访问数据是一个问题；发现和管理休眠数据是一个问题；数据仓库所需的预算是一个问题；管理不断增长的数据量所需的技术是一个问题。

分享到：新浪微博腾讯微博

本文关键字：数据仓库

跟任何一个自尊心很强的数据仓库开发者谈论时，你都会听到一个关于一个数据库中有大量数据的故事。数据仓库的巨大是因为数据仓库包含了由历史数据、详细数据和各种各样类型的数据组成的数据。这里有一个公式:
历史×细节×种类 = 大量的数据

由大量数据引发的问题有：是否可以预测是一个问题；加载数据是一个问题；整理数据是一个问题；索引数据是一个问题；有效地访问数据是一个问题；发现和管理休眠数据是一个问题；数据仓库所需的预算是一个问题；管理不断增长的数据量所需的技术是一个问题。简而言之, 在数据仓库中持有数据对它本身就是一个挑战。

现在出现了DW 2.0（数据仓库2.0版）。并且在DW 2.0中很天真地建议我们开始尝试在数据仓库中抓取非结构化、文本的数据。让我们做一次快速的计算。估计在企业中文本类的数据约为典型的结构化数据的5到10倍。几乎每一家公司的数据仓库是由结构化的信息构成。那么，让我们做一个分析。目前在我们的企业在结构化数据的管理上存在一个挑战。一旦我们开始添加非结构化的数据到我们的数据仓库，这会使我们今天所面对的挑战升至十倍。那就是我们在这里讨论的吗?

随着出现在我们面前的大量非结构化数据，数据的存储容量需要变的更大。但是要大多少呢？确实，世界上有大量的非结构化数据，难道所有的数据都要放在硬盘的存储空间上吗？当然是有许多要存储在硬盘上，但的确不是所有的数据都要想方设法存储在硬盘上。
那么，哪些非结构化数据的不必/不应该存储在硬盘上呢？有很多淘汰工作可以去作：
• 本质上有三种类型的邮件 — 个人电子邮件,垃圾邮件和业务相关的电子邮件。只有业务相关的电子邮件应该设法存入数据仓库。垃圾邮件和个人电子邮件应该被清除。
• 结束用语需要被过滤掉。在一些语言中，结束用语占用了40%的文本。
• 有些非结构化数据的加工需要割裂文档。其他类型的非结构化数据的加工只需要选择索引。割裂的文档比选择性索引的文档要占用更多的空间。
• 一些文件只需要参考他们的元数据。对文件元数据的索引要比对文件的内容等等建立文件要大大地提高效率。
另一个因素是，非结构化的数据不必设法一次性所有地存入数据仓库。要花几年的时间将所有非结构化的要素归入在一个数据仓库中。

所以并不是所有非结构化的数据都要设法存入一个数据仓库，当然更不是一次性存入所有。但很多非结构化的数据最终会设法进入到一个数据仓库。如果做一个有根据的猜测，可能以今天的结构化数据仓库乘以三到四倍会是个不错的猜测。对任何人而言那都是一个大量的数据。

责编：亢晋芳

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

数据仓库：有多少数据?

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。