运用大数据技术集成数据仓库架构

来源: 互联网
2014/1/6 12:31:55
数据架构的最终确定是最耗费时间的任务,但是一旦完成,它就可以为物理部署提供坚实的基础。物理部署将使用到前面介绍的技术,其中包括大数据和RDBMS系统。

分享到: 新浪微博 腾讯微博
本文关键字: 大数据 数据仓库 商业智能

大型环境的MapReduce配置和优化可能很有难度,但是设备架构会提供一些参考架构安装步骤,帮助我们简化这个过程。

数据可用性

数据可用性一直是所有涉及处理和转换最终用户数据的系统的难题,大数据也不例外。Hadoop或NoSQL的优点是能够降低这个风险,同时使数据在获取之后马上就可用于分析。不足是需要快速加载数据,因为没有任何预转换步骤。

数据可用性取决于SerDe或Avro层次的元数据特殊性。如果在获取数据时对它们执行了足够详细的分类,那么它们就可以马上用于分析。

由于大数据层次的数据不存在更新,所以处理包含更新的新数据将产生重复数据,我们必须处理这些重复数据,才能减小它们对于可用性的影响。

数据容量

数据的内在特性决定了大数据容量很容易失去控制。在每个数据获取周期中都一定要特别注意数据的增长。

数据停留需求各不相同,它主要取决于数据的性质、新近程度及其与业务的关系:

合规性需求:Safe Harbor、SOX、HIPAA、GLBA和PCI法规可能会影响数据安全性和存储。如果计划要使用这些数据类型,那么一定正确规划。

法律授权:有一些事务数据集不能在线存储,法院要求使用这些数据来发现集体诉讼的意图。大数据基础架构可以作为这种数据类型的存储引擎,但是数据授权一定要符合一些需求和额外的安全要求。这种数据容量可能会影响整体性能,而且如果在大数据平台上处理这些数据集,那么设备配置可以给管理员提供一些工具和方法,帮助他们将基础架构划分到不同的区域,为数据标记不同的区域标签,从而减小对于风险和性能的影响。

数据探索和挖掘是一个非常普通的活动,它是在各个组织中实现大数据抓取的一个动因,它也会在数据处理之后产生大规模数据集。这些数据集需要保存在大数据系统,然后定期清理和删除中间数据集。这是各种组织经常忽略的一个领域,而且可能在一段时间之后对性能产生严重影响。

存储性能

在创建大数据系统时,磁盘性能是一个重要考虑因素,设备模型可以更多地关注存储类型和分层架构。对于存储基础架构的长期规划和增长管理而言,它可以作为一个起步工具。

如果在大数据处理中计划组合使用内存、SSD和传统存储架构,那么不同层次数据的维持和交换都会花费大量的处理时间和处理周期。我们需要特别注意这个领域,设备架构专门为这种复杂存储需求提供了一种参考。

运营成本

计算一个数据仓库及其大数据平台的运营开支是一项复杂的任务,运营成本包含基础架构的初始采购费用、实现架构的劳力成本及持续维护所需要的基础架构和劳力成本,包括获取外部咨询和聘请专家的费用。

共2页: [1]2 下一页
责编:王雅京
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map