|
档案大数据来袭
大数据时代已经来临,我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。
据统计,我国“十一五”末馆藏档案已达到39264万卷(件)。随着社会活动快速加强、网络信息化日益普遍,移动互联、社交网络、电子商务大大拓展了网络的疆界和应用领域,悄无声息,大数据时代已经来临。我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。 一、什么是档案大数据 档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。 我们通常理解为大量非结构化数据(包含所有格式的办公文档、文本、图片、图像和音频/视频信息等等)和半结构化数据(结构方面缺少统一规律的数据),这些数据在获取并用于分析时会花费过多时间和金钱。 档案大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有较高价值的饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。也就是我们不仅要拥有一座矿山,还要通过各种手段发掘、开采、提炼出高价值的产品。方法和手段不一样,产出的价值是不同的。 档案大数据的特点:数据量巨大、数据类型繁多、价值密度低、处理速度快。 数据量巨大:以“十一五末”我国的馆藏档案量已达到近4亿卷,以每卷3厘米厚度。我国的馆藏档案能把长江从源头至入海口码个来回。根据估算我国档案正以每5年40%速度递增。 数据类型繁多:档案涉及政府机关、集团企业、金融、通信、建筑、房产、教育、军工、法院等行业。这些行业运行不同的业务,产生档案数据是各不相同的。如文档、设计图、照片、录音材料、视频、GIS信息、水文气象信息等。这些不同的文档又存在一定的关联性。比如城市建设的平面图、设计图可以和GIS数据信息关联,同时还要关联政府建设规划文件、批复与施工文件等。这些不同类型的数据不同程度上对数据的处理能力提出了更高的要求。 价值密度低:价值密度的高低与数据总量的大小成反比。如保险档案,我们会把保险单逐一存档,但发生理赔的概率是极低的。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。 处理速度快:这是大数据区分于传统数据挖掘的最显著特征。在海量的数据面前,处理数据的效率就是企业的生命。档案大数据也是如此。 档案大数据与互联网大数据有着相同的特点,从档案本身属性看其特点还表现在一方面可以提供政府企业运行的依据,支持核心生产力与应用,另一方面档案仍对合规、电子取证、安全、诊断以及其他支持性应用程序有相当大的价值。
责编:李玉琴
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|