基于大数据环境的档案信息资源开发模式分析

湖南省档案局 hnsdaj.hunan.gov.cn 时间:2020-03-03 【字体:
  

作者姓名:胡

作者单位:湖南省核工业地质局档案馆


要:当前档案工作中分布着模拟态、数字态、数据态三种形态的档案信息资源,凭证价值、情报价值、文化价值对应着档案信息资源开发与利用的三个层次。大数据环境下,要实现对档案信息资源的有效开发不能只局限于满足长久保存、实现检索和利用的需求,必须要向数据化方向发展。政府部门、公共部门和市场主导的档案信息资源开发模式各有优劣,平台 数据挖掘模式、技术框架 用户画像两种技术开发模式也各有侧重。经分析,档案馆(公共部门)和市场协同开展档案信息资源开发工作是比较优质、高效的档案信息资源开发模式。

关键词:大数据 档案信息资源 开发 模式

随着现代信息技术的发展,档案业务环境经历了重大变革。档案信息经历了从模拟态到数字态的变化,目前正在向数据态的方向演进发展。在实际的档案工作中,模拟态、数字态、数据态三种形态的档案信息并存,互为补充。大数据时代,传统的档案信息资源开发模式显然已经不适应基于数据驱动与模型驱动、并严重依赖业务规则和场景的数据态档案信息,许多档案人员面对不同型态的海量档案信息手足无措,而大量的档案信息资源未得到充分的挖掘、分析和开发利用,因此有必要探索适应大数据环境的档案信息资源开发模式。

1.档案信息的三种形态

众所周知,档案是人们在各项社会活动中形成的原始记录,即只要能反映社会活动真实面貌的存在都能作为档案保存。因此,档案类型多样且涉及不同的行业,传统意义上将档案按内容分为文书档案、 科技档案、会计档案等,或按载体分为纸质档案、光盘档案等。中国人民大学钱毅教授将档案管理对象的形成环境和与之匹配的技术体系将档案分为三种形态。

所谓模拟态档案主要指以纸质为主的档案资料,还包括其他各种载体和内容不可分离缩微胶片档案、简牍档案及实物档案等。传统的档案管理方式就是对模拟态档案的管理,其重点是通过分析档案内容对档案载体进行收集、整理、鉴定、保管。数字态档案是指档案信息由人们可以肉眼观察和识别的模拟态转变为计算机可以直接读取的二进制的比特流,主要包括图像文件、音频音像文件、word文档、CAD图等类型的电子文件档案资料,其特点是信息内容可以自由流动、与固定载体不再紧密联系,依赖电子系统。对数字态档案的管理更侧重分析其内容、背景、结构信息,努力维护其内容的真实性、完整性、可靠性和可用性。数据态档案其实是数字态档案的延伸,在数字态的基础上,使其数据化,形成可重组、可分析、可关联的概念集合,其形成依赖基于规则的业务系统或模型,如金融系统数据、政府系统数据等,本质是通过制定一系列参数和规则形成的数据组合。数据态档案管理的重点是对数据、业务流程或模型的描述与关联管理[1]

                      

   







1  三种档案形态的演进关系


2.档案信息资源开发视角的档案价值观

档案信息资源开发主体面对日益增长的档案信息资源需求,通过各种技术手段对档案资源进行开发,并传递出去。主要目的在于充分发挥档案的价值,促进用户对档案资源的有效利用。一般而言,档案信息资源开发的不同程度对应着三个层次的档案价值[2]

2.1凭证价值,提供档案副本

这是档案资源开发利用最基本的层次。由于档案的本质属性是 “原始记录性”,所以在档案在社会活动中具有较高的法律效力,拥有无可比拟的凭证作用,凭证价值是档案应用最广泛的价值之一。通过复制制作档案副本,可以代替档案原件解决一些工作以及生活中的问题。此种档案资源开发利用方式多见于模拟态档案,需要在档案实体上盖档案部门印章方能生效。

2.2情报价值,信息聚类参考

这是档案信息资源开发的中间层次。随着档案信息数量的急剧增长,档案人员需要帮助用户提取专业、系统,优质、丰富的信息情报。档案信息资源开发主体通过人工分析社会需求、结合一定技术手段将档案资源进行聚类整合,提炼出对生产生活、经济运行和国家社会发展有用的情报信息为政府决策和普通用户的工作生活提供信息支持。主要方式有资料简介、原文汇编,建立检索系统、数据库等。

2.3文化价值,文化挖掘和提炼

这是档案信息资源开发的最高层次。由于档案是社会实践的原始记录,蕴含了不同时期不同年代的社会全貌,保存了某个地区或者国家的记忆,因此档案具有一定的历史文化价值。文化的影响和传承离不开档案,从浩繁的档案资源中进行文化挖掘,是践行党和国家实现“文化自信”的重要举措,也是档案人必须要努力的方向。

3.档案信息资源开发的条件——数据化

数字态和数据态档案都是计算机可以自动分析、理解与处置的档案信息,通过对结构化的数据进行关联分析、聚类分析,对非结构化的文本信息进行模块提取,对业务系统采用面向不同主题、角度的多维分析等方式,实现对档案信息的深度挖掘。相较于传统载体档案采用人工标引、编目、著录、编研等进行档案资源开发的方式,数字态和数据态的档案资源开发方式显然效率更高、效果更显著。

吕玉洁、向禹在《确定性需求驱动的档案数字化加工监理模式构建与适用性分析》中建立了档案数字化建工确定需求的模型,对我国当前档案数字化加工的确定性需求进行总结。档案数字化加工的第一层次需求是要满足长久保存,第二层需求是实现检索、利用,第三层需求是档案数据化,第四层需求是展现关联性[3]。目前国内许多综合档案馆已完成对馆内部分历史档案和现行档案的数字化处理工作,满足了档案数字化加工的第一层和第二层需求,而对第三层档案信息的数据化处理尚缺乏宏观性的规划,大多数档案数字化后以档案目录数据库和数字图像的形式存储于馆内数据库中。

与此同时,政府部门、企业在社会活动中形成越来越多的数据态档案没有得到有效的归档和保存,大众对数据资源进行整合与挖掘的需求越来越强烈,如地质行业需要建立四维地质环境模型实现数据可视化,以便更好地进行地质勘查和环境治理;人民群众要求政府推行一站式办理业务的服务等。因此如何建立档案数据化发展模式,实现业务环节和档案环节的无缝对接,以电子文件双轨制向“单轨制”运行为契机,推动各行业的在线归档功能实现,使档案馆形成社会档案大数据资源中心,实现对档案数据资源的深度挖掘和充分利用,是档案部门必须解决的问题。

4.档案信息资源开发模式分类

本文从档案信息资源开发主体和开发技术角度,通过文献调查和网络查找的方式对档案信息资源开发模式进行探讨。

4.1从开发主体的角度来看

档案信息资源开发主体可分为三种:政府部门、公共档案部门和市场。

1)政府部门主导的档案信息资源开发模式。政府部门主导的档案信息资源开发模式是指政府部门主导单位内部档案信息资源开发的模式,政府部门作为档案信息资源的生产者和使用者,是档案信息资源开发的主力军。政府部门占据了社会上大部分档案信息资源,涵盖行政公文、声像资料等多种类的档案,涉及自然资源、气象、农林等多行业档案资料,通过深度开发档案信息资源为政府决策提供信息支持,为民众办理业务提供快速高效的服务。

政府部门主导的档案信息资源开发模式的优势:一是安全。政府部门具有较高的保密意识,涉密和非涉密档案信息的处理有严格区分,保密制度健全、安全措施到位,能防止泄密事件的发生。二是快速。政府部门通过行政指令分派任务,设置档案资源开发完成时间,能将档案资源开发的工作在全国范围内快速铺陈开来,在短时间内聚集优质人力物力资源完成任务。该模式的劣势:一是人员技术方面。政府部门工作人员主要从事长传下达或管理层面的工作,不擅长做技术层面的工作。政府各单位部门之间存在着信息壁垒,各业务系统之间还未完全整合,单靠档案室的工作人员显然无法解决这些难题。二政府各单位档案部门的局限性。政府各单位的档案部门主要以档案室的形式存在,其保存的档案信息最终要流向公共档案馆,其档案资源开发的任务多是局部性、应急性、预警性的,不适合多角度全方位的深度挖掘[4]

2)公共部门主导的档案信息资源开发模式。公共部门主导的档案信息资源开发模式主要是指公共综合性档案馆、专门档案馆等公益性事业单位为主对馆藏档案资源进行开发的模式。档案馆的档案信息资源一般是政府部门移交、其他单位汇交以及档案馆主动收集的资料,经过审分类、鉴定、整理归档形成的。以地质资料档案馆为例,各省地质资料档案馆都保存了不同地区丰富多样的地质资料,包括各种区调报告、矿产资源勘查成果资料、地质灾害调查报告等。目前许多地质资料档案馆都搭建了地质资料信息共享服务平台,供公众查询馆藏地质资料目录,单位和个人都可以按规定查询所需档案资料信息。同时,地质资料档案馆还要围绕环境评价、高速公路、高铁地铁等政府项目进行档案资源开发,及时提供信息支持。

公共部门主导的档案信息资源开发模式优势是:实用性强。档案馆的定位就是服务政府和公众的信息中心,直接面向用户,了解用户的需求和偏好,不仅能对现实需求迅速反应,还能通过用户分析对未来的信息需求提前预判,及时提供所需档案资源;除了公共综合性档案馆,大部分都是专门性档案馆,比如城建档案馆、地质资料档案馆等,这些档案馆保存了大量专业的技术资料,通过大数据挖掘技术能进行深层次开发档案信息资源,提取新的知识。人才技术资源优势。档案馆有专门的档案信息技术人才,即懂档案也懂现代信息技术,并掌握一定的行业知识,能对档案资源开发有的放矢,提供专业的信息咨询。该模式劣势为:许多档案馆保存的档案内容比较单一,馆际之间信息化水平不一,不利于档案信息资源的综合开发。

3)市场主导的信息资源开发模式。市场主导的信息资源开发模式是指企业根据市场需求自主开发档案信息资源产品向政府和公众提供有偿的档案信息服务,或通过招投标等方式接受政府或公共档案馆的委托,为其开发档案信息资源的模式。该模式的优势是企业技术力量强大,项目开发经验丰富,灵活性强,快速高效。劣势是:目前国家缺乏对企业档案资源开发产品系统的监管和评估规范,有泄露国家机密信息的风险,企业对委托其开发的档案资源产品有无占有权等问题。

4.2从开发技术角度来看

从技术开发角度看,主要有平台 数据挖掘、技术框架 用户画像两种档案资源开发模式。

1)平台 数据挖掘模式。目前许多政府部门和档案馆都建立了信息共享平台,供用户查询信息、办理业务、咨询等,该平台既保存了许多数字档案也产生许多数据档案。随着物联网和移动互联网的技术快速发展,渗透到人们生活的方方面面,数据档案的数量将剧烈上升。未来将以大数据和云计算技术为依托,建立智能化平台,例如智慧城市大脑,该平台通过物联网的承载网络、广域互联网、局域网、移动通信网获取数据档案。运用大数据技术对平台内的数据进行智能分析,通过数据关联挖掘和提炼数据中隐藏的知识将变得十分便捷和高效。

2)技术框架 用户画像模式。该模式基于对用户在网络中的行为进行分析,通过可视化统计描述、多维度交叉分析、用户关系图谱等技术构建目标用户模型。这种方式已广泛应用到电子商务领域,通过用户画像判断用户需求实现精准推送。档案行业要积极地转变思维,通过信息共享平台、微博、微信等渠道收集用户的行为数据,在大数据时代扭转公众对档案部门的“刻板印象”,及时地改进工作,为用户提供档案信息的精准服务[5]

5.结语

面对日新月异的信息技术和海量的数据档案,综合档案馆、高校档案馆、专门档案馆等公共部门有良好的科研环境和项目绩效刺激,掌握了比较新的数据分析技术和档案专业知识,结合市场企业先进的技术团队和丰富的项目经验,能更好地应对不同类型的档案数据资源开发。政府部门负责履行公共管理职能,档案馆和市场协同开展档案信息资源开发工作,提供信息服务,是比较优质、高效的档案资源开发模式。



基于大数据环境的档案信息资源开发模式分析

11359597