|
档案大数据来袭
大数据时代已经来临,我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。
文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;文本挖掘有两个主要应用领域,信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。如图所示: 总之,我们可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小范围,从而提高其效率和准确度。 在档案信息化领域,知识管理的发展主要包括认知、信息积累、知识挖掘、知识运用、规范化发展五个步骤。通常结合信息检索、分析及挖掘技术,将信息进行适当的分类及抽取或形成一组问答序列,并将这些信息进行提取,形成解决某一问题域的数据集市,挖掘出一定的专门知识,作为决策的依据。 档案知识的输出和评价还需要高效快速的辅助智能检索技术。 (1)基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。 (2)基于音视频内容检索。可以直接对音视频内容进行检索,自动识别关键帧,能够区分定位出一个视频中的不同的两段内容,减轻人工打点的工作量,提高视频处理的能力。 (3)档案智能化辅助分类。可从历史分类中智能提取档案分类,提高用户整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行学习,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。 因此,档案大数据系统平台总体架构应按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘与智能搜索应用平台三个层次实现。通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。 管理档案大数据较传统的档案数据,需要去改变管理流程与文化,很多企业不愿意改变传统的方式。形势已经来临,竞争对手可能已捷足先登,保守必将错失机会。
责编:李玉琴
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新专题
|
|