|
数据采集数据采集方式种类繁多,情况复杂,这里描述的只是常规数据源(数据库)和业务系统之间的数据采集,也是较为常见的情况。 概述 数据采集是一个复杂的过程。简单的说数据采集可以是网页手工录入数据、扫描条形码、自动化定 时数据抽取、修正或者补录过程等等,最终是为数据存储或数据分析提供基础内容。可见无论何种情况,数据采集一定需要以下几个重要组成部分:目标,输入,处 理,输出。在技术水平快速发展的今天,各式各样的数据采集工具,数据采集系统先后问世,数据采集进入了一个全新的时代。这里就对计算机软件系统在商业智能 体系中如何进行数据采集进行必要的讨论。 目标定义 所有的过程都是为了目标而展开的。目标的不同,实现的过程也会不同,自然效果和要求也随之不同。 举 个简单例子:两点的距离是1公里,若定义的最终目标只是简单的 “从A点到达B点”,这时,通常人们都会选择徒步而不使用交通工具。但是,如果目标改为 “从A点快速到达B点”,这种情况下,为了达到最终目标,首先要建立过程目标,就是先找到交通工具,然后利用交通工具实现最终目标。 过程目标 我 们发现一个有意思的事情,这个过程目标的建立是跟实际情况相关联的,例如,外在很多因素可以决定这个“最”字,时间,成本,资源等,因此肯定需要通过对比 从而选择最方便和最快速的交通工具。数据采集过程同样如此,过程目标形式多种多样,为了最终目标也需要随时进行必要的修改。例如,一个Web数据采集应 用,我们可以先建立中间库或者临时表,存储通过网页录入数据,自动化调度,手工补录等方式完成,在这个阶段,数据可以支持任意的修改。 最终目标 一旦过程目标确定并且完成后,一切过程都将按照规则约束,并且不再更改。否则会带来成本和时间的浪费。例如,一个人上了出租车必须要告知司机是要到达C点还 是 B点,目的地的变更应该在开车之前确定下来。同理,数据采集的最终存储是为了提供真实数据,用来归档或者分析数据,当在中间库或者临时表将数据整理完 成后,下一步就将按照固定规则,直接抽取到数据中心统一存储。这样才算是完成了一个较为规范和完整的数据采集过程。
结构/方案 这里以一个实际的分布式应用系统作为数据采集过程的实例。这个系统包括了分布全国30家门店的财务系统,一个数据中心,一个数据分析中心。每个门店都拥有 1-3个帐套,为了每天都能支持对所有业务数据的分析,需要每天晚上按照规则自动的采集各个帐套数据,而由于不能修改原业务系统,所以缺失数据可以采用网 页填报形式完成手工数据补录。这里,就需要一个临时库用以存储第一步抽取的内容,在进入数据中心之前,需根据规则进行汇总计算和数据质量修正,满足分析要 求后,将规整后的数据直接抽取到不可更改的数据中心,最后基于数据中心搭建分析平台,完成全部数据采集过程。
以上流程图可以全面概括实现过程。整套解决方案无需修改原业务系统,也无需大量编程和开发,基本都是配置完成,可以快速稳定搭建。 过程实现 过程包括数据提取,数据处理,数据存储,分析展现。润乾公司提供的一体化和快速搭建解决方案,在满足需求的同时,辅以咨询和售后服务,给予用户自主搭建系统过程中全面的技术支持,也避免了客户的后顾之忧。 以下是所涉及产品的要点介绍: 多源填报模型可以支持网页录入数据,丰富的填报风格方便手动录入数据,所填写内容可以同时回填到多个数据库或者数据表中,可视化设计器可以支持快速定制报表样式和数据组织; 调度器可以自动化处理数据的抽取和转换工作,支持自动执行报表计算,脚本运行,报表输出等; 润乾产品支持所有提供JDBC驱动的数据库系统,数据存储可以通过多源填报模型和调度器完成。非常规数据源的存储可以利用自定义数据集和自定义填报属性完成交互; 报表产品提供丰富的展现效果,利用非线性报表模型可以将复杂的数据整理和样式设计最高效率结合,提供在线精确打印和全面动态控制报表元素属性来满足各种需求; 决策分析平台起到门户的作用,统一管理调度服务,报表展现和发布,权限管理等通用功能。是与终端用户,特别是决策层用户宏观分析,展现分析结果最理想的交互手段。 总结 数据采集方式种类繁多,情况复杂,这里描述的只是常规数据源(数据库)和业务系统之间的数据采集,也是较为常见的情况。润乾通过模块式的产品组合,能够达到一体化解决方案,快速搭建,准确实现的最终目标,并在最大程度上减少了开发工作量和实施中存在的风险。 责编:孙群 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:kaiyun体育官方人口
文章著作权分属kaiyun体育官方人口
、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|