当前位置:   首页 > 档案馆业务 > 档案学会 > 学术论文

大数据背景下档案信息化发展的新动力(第二十二次论文评选,二等奖)

发布时间:2014-12-09 湖南省档案局 sdaj.hunan.gov.cn 字体:     分享:

  作    者: 陈 虹 蓉

  工作单位:汉寿县档案局

  2014年5月9日


大数据背景下档案信息化发展的新动力

  

  摘要:随着计算机技术和网络技术全面融入社会生活,各种信息数据充斥着世界的各个角落,并以惊人的速度激增,人类已经开始步入大数据时代。大数据技术支持庞大数据的存储和处理,给人们的生活、工作和思维带来重大变革,也给档案信息化发展注入新的动力,大数据对社会档案信息资源的管理和服务模式将产生什么的影响,大数据时代下档案资源信息化过程中有哪些值得注意的问题,笔者就以上几个问题进行了详细论述。

  关键词:大数据 信息化 大管理 大服务

  半个世纪以来,随着计算机技术和网络技术全面融入社会生活,各种信息数据充斥着世界的各个角落,并以惊人的速度激增。从出现文明到2003年,人类总共才创造5EB(1018字节,1024PB)的数据,但是我们现在仅两天就创造出相同的数据量,预计到2015年将达到8ZB(1021字节,1024EB),人类已经开始步入大数据时代。

  最早提出“大数据”时代到来的是全球球知名咨询公司麦肯锡。从某种程度上说,大数据是计算机和互联网结合的产物,计算机实现了数据的数字化,互联网实现了数据的网络化,两者结合才赋予了大数据生命力。那么何为大数据,大数据相比传统数据有何特点,关于这一点,各方说法不一,笔者认为大数据的特征主要体现为3V:一是数据体量巨大(Volume)。要求数据量至少是PB级,现在的谷歌、百度、腾讯等互联网公司每天数据的更新量已经接近或达到了PB量级;二是数据类型多样(Variety)。可以是传统结构化的格式,也可以是视频、音频、图像、影像、邮件、网络日志、地理位置等半结构化、非结构化的格式。这些数据的来源非常广泛,主要来自具有联网功能的智能收集系统,如在互联网使用的浏览器留下的个人操作痕迹,银行的ATM、加油站、交通摄像头采集的数字信息,甚至是日趋智能化的家电产品也可以动态生产关于产品使用的各种数据。三是数据能快速生成和更新(Velocity)。随着网络带宽速率的进一步提升,上述结构化数据或非结构化数据可以在瞬间生成,并迅速传输到互联网某个特定的位置。因为如果数据达不到快速的要求,将对后续的分析预测毫无意义,无法创造更大的价值。

  2011年,麦肯锡在《大数据:创新、竞争和生产力的下一个前沿》的报告中称:“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。”对于以社会信息管理为己任的档案事业而言,大数据对档案资源的管理和利用将产生什么的影响,值得每一个档案人深思。笔者拟就大数据对档案信息资源的管理和利用等几个方面谈一些粗浅的认识。

  一、大数据将使档案工作对象延伸至“大档案”

  随着国家关于推动档案信息化建设的政策不断出台,各地的数字化档案数据正处于快速增长阶段,以北京市档案馆为例,若将当前馆藏所有档案进行数字化,包括文档、图片、音频等结构化数据和非结构化数据,其存储总量,将要超过10PB。这个数据量从规模上看已经比较大,带有一部分大数据的特征,但并不等同于“大数据”,主要在于档案信息从生成到数字化经历了一段比较长的时间,不具备即时性的特点。但这不代表我们的档案工作与“大数据”无关。随着社会智能化、网络化的程度不断加剧,档案信息化的工作也将与“大数据”的关系更加密切。

  档案是机关、组织和个人在社会活动中形成的,具有保存价值的文字、图像、声音及其它各种方式和载体的历史记录。简单地说,档案是人类活动真实的记录。从这个意义出发,一切具有保存价值的文件、视频、数据均可视为档案。在如今高速发展的数字化社会,不仅腾讯、阿里巴巴、中国移动等大型企业,就连国家电网、交通运输部这样的职能部门,通过网络产生的数据也已达到PB量级,这些电子数据作为业务运行的各种记录,不仅属于“大数据”的范畴,也符合“档案”的基本属性。

  过去档案管理部门将档案管理的对象仅限于纸质文件、照片、实物档案等传统载体的档案,后随着计算机和多媒体技术的发展,音频、视频、电子文件等新型媒体资料也纳入到档案工作的管理范围中,现如今大规模数据海量级的增长,人类社会开始进入了一个以“PB”(1024TB)为单位的结构或非结构数据信息的新时代,即“大数据时代”,我们档案人对档案工作的认识已经不能停留在过去传统的认识上,在思维上必须有一个大突破,将“大数据”纳入到档案管理的范畴,充分利用全社会的资源和力量,建设“大档案”,实现大服务。这里的“大档案”,强调档案类型极大的广泛性,无论是是纸质文件为代表的传统档案,还是数字数据这样的新型信息元素,都将纳入档案工作的视野,使档案工作向全面信息管理转变。

  二、大数据技术有助于对档案信息资源实现突破时空的“大管理”

  大数据的显著特征是具有巨大的数据量,对大数据的管理和应用涉及到海量数据的存储、计算、挖掘和展现的问题,近年来大数据技术应用的标准、技术在互联网、信息行业的发展已经日趋成熟。而审视我国目前的档案信息化建设,虽取得一定进展,但仍存在诸如数据库容量有限、资源重复建设等瓶颈问题,一定程度上限制了档案信息资源建设的发展,因此大数据时代,档案工作者有必要从大数据的规模应用上寻找新的思路,以更好的为档案信息化建设服务。

  大数据技术与云技术分不开。由于数据量巨大,对大数据的储存和挖掘无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,实现对大数据的高效管理,可以说,大数据离开了云技术便如同空中楼阁,无法生存。云技术也叫云计算,相当于把无数台个人计算机、服务器连接成“云”,也意味着将互联网上成千上万计算机中的处理器资源、应用软件和数据存储能力联合起来,使计算运行在大规模的服务器集群中而非本地计算机或个人终端设备,能提供每秒10万亿次以上的运算能力。“云”中的资源对于使用者来说可以无限扩展,随时获取,并可像使用水电一样付费按需使用。相比传统的独立计算设备而言,“云”计算拥有超强的计算能力。举例说明:2008年,美国国家档案馆公开了希拉里·克林顿作为第一夫人期间的白宫日程档案,《华盛顿》试图在第一时间将这些极具新闻价值的档案上传到互联网,但是这些档案是不可检索的低质量PDF文件,需要进行转换。如果以报社现有的计算资源,需要超过1年时间才有可能完成全部档案的格式转换工作。于是报社将该任务交给了亚马逊公司的云计算平台,用200台虚拟服务器,仅用9个小时就完成了所有文档的转换,费用只需144.62美元。

  由于各地区、各部门档案信息化程度的不平衡,目前,我国档案信息资源的建设普遍存在“各自为政”的问题,而云计算这一模式的出现,有望为档案资源的信息化发展开辟一条捷径。

  首先,在数字资源的获取上,大数据出现以前,档案资源的“收”主要是部门移交与后期系统推送,不仅费时费力,对软件系统的要求也比较高,而且在时间上由于有一定的延迟,档案的原始性和真实性也会受到影响,而在大数据时代,智能的业务系统能够随时将业务数据上传,数字化信息的产生与推送可以同步发生,能更好的保证数字信息的时效性和原始性。

  其次,在数字资源的储存上,各地各级档案馆或档案室可将数字资源通过数据中心基础设施置于“云”中心,无需“镜像”于本地,各地档案资源便通过“云”紧密联系在一起,各级档案管理部门只需与云技术提供商签定协议,以少量的花费租用相关服务,由云技术提供商来完成“云”中心相关基础设施的日常维护、软硬件的升级服务,这不仅能大大简化数字档案的管理工作,还能减少对计算机人才的过度依赖,节省对数字档案管理的软硬件投资。更重要的是,云共享的方式可以打破档案馆馆际之间的“信息壁垒”,有效解决“档案信息孤岛”的问题,并且当地震、火灾等灾难性事件发生时,储存于“云”中心的信息资源仍能完好无损,避免浩劫。

  这样看来,依托云技术的档案信息资源管理是一种全新的管理模式,它以一种跳出“档案”做“档案”的超前思维,以小投入获得大平台,实现了对分散于各个部门、各个区域的档案信息资源的“大管理”。如今,云计算在信息管理上的应用获得了国家部门的高度关注,2010年,工信部与国家发改委联合印发《关于做好云计算服务创新发展试点示范工作的通知》,确定在北京、上海、深圳、杭州、无锡5个城市开展云计算的总体思路和战略布局。我国档案部门也应站在推动社会信息化发展的高度,把握时代发展的机遇,全力打造跨越时空的档案信息资源共享平台,以更好地为社会经济发展服务。

  三、大数据有助于使档案信息资源提供更加广阔的 “大服务”

  维克托·舍恩拍格在《大数据时代》一书中强调:“收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。”他在书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。大数据的核心就是挖掘出庞大的数据库独有的价值。已经有越来越多的事实证明,通过对大数据的“加工”处理,可以从海量的数据中挖掘出意想不到的价值。如谷歌(Google)公司每天大约有200亿个网页搜索,他们经过大数据分析以后能精准地推送广告,这打败了过去传统的广告方式,一年可以为它带来2300万美元的收入;《泰囧》、《致青春》、《中国合伙人》之所以受欢迎,部分原因是这些票房收入高的电影在拍摄之前就进行了数据分析,网上哪本小说点击量大、阅读量大,就从这里面选剧本改编。

  大数据能够发挥重要作用,不但可以在商业领域创造财富,同样可以造福于社会和公民。如通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒,还可以通过数据分析帮助医疗机构建立患者的疾病风险跟踪机制等等。发挥大数据潜在价值的前提是掌握大数据,虽然大数据已经越来越广泛地应用于商业领域,但在政府管理领域用于提高行政效能方面仍十分少见,主要原因是各个部门的档案信息管理系统不尽相同,标准不一,各种数据信息被分割在不同的政府部门中,存在着难以跨越的“鸿沟”,而且受行政垄断和商业利益所限,数据开放程度较低,这给数据利用造成极大障碍。大数据技术的应用为行政管理领域的档案信息资源共享和利用提供了一种合理的解决方式。如果将政府各部门所掌握的各种原始数据如气象数据、金融数据、信用数据、电力数据、煤气数据、自来水数据,道路交通数据等关联起来,这些数据必将创造巨大的社会价值,如在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性;确在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。因此政府应该有计划、有步骤地放开各职能部门的档案信息数据,为打造智慧城市,实现智慧交通,智慧能源,智慧医疗,智慧环保等打开新的大门。

  对社会公众而言,大数据可以为用户提供更加方便快捷的人机交互模式。以往档案信息资源建设主要采用的是“分布式存储、分布式服务”,这一结果使得各个信息资源库的检索方式不尽相同,用户须对不同的档案信息资源库采取不同的检索方式,这一过程耗费用户大量的时间和精力,而且检索结果有限,检索效率低。而通过云技术运作下的档案信息资源构建模式,人们可以足不出户,只需通过计算机或手机等终端设备进入到服务端口,就可进入统一界面,进行自主操作,即“一站式”地访问和查询国家级、省级及其他各地的档案信息资源库。

  四、大数据时代下档案资源信息化过程中值得注意的问题

  在大数据时代,以互联网为平台,运用云计算技术和理念,将建立起面向社会的虚拟档案信息资源库,为与通过传统信息化方式获取数字资源的方式相区别,笔者拟将这种具有大数据特征的档案数据称之为“云档案”。云计算突破了原有的档案收集、整理、归档、移交的管理模式,对传统的档案信息资源管理方式带来一定的冲击和挑战。此外,科技是一把双刃剑,这种依赖互联网和信息技术设备的档案管理方式也同样面临着安全问题。

  (1)“云档案”的数据采集问题。与以住的档案信息资源收集过程不同,“云档案”的采集主要依赖于感应识别技术,如传感器、指纹识别、二维码、条形码、可穿戴设备等,这些技术可实现实时的信息采集和分析,成为“云”中心的主要数据来源,这些技术使数据的采集和处理变得自动而迅速,但也应该看到这些技术主要运用于商业领域,并未有效应用于社会管理的各个层面,普及程度并不高,因此要实现大数据的广泛应用,使档案信息资源更好为经济社会服务,还有赖于相关技术和产品的开发和推广。

  “云档案“的鉴定问题。大数据时代,各种类型的数据信息呈指数级增长,面对巨量的资源信息,我们长期采用的“直接鉴定法”将受到严峻挑战,信息管理人员无法逐一鉴别,因此可采取宏观鉴定的办法,即从总体上判断档案信息的价值,以适应数据高速增长的现状。

  “云档案”涉及到的公众隐私问题。“云档案”的采集往往是一种悄无声息的自动化过程,当你在网上浏览网页,或者注册登记时,可能你的个人信息就已经被扩散出去了,因此用户隐私问题是大数据应用不可忽视的问题。目前,我国对公众隐私问题并没有出台专门的法律法规加以规范,但随着公众隐私意识的增强,必然需要完善相关法规,保证合法合规地获取数据和分析数据。采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。

  “云档案”在云计算平台上的安全问题。“云”中心存放着海量数字信息,有些数据还可能涉及有关单位的机密,此外,黑客和病毒入侵的危险仍然存在。为保障数据安全,应根据用户的实际需要,对访问权限进行划分并通过验证加以控制,对涉及国家安全、信息保密的的信息资源暂不公开;可使用加密和数字签名技术,确保信息在存储和传递过程中不被下载或恶意篡改;还可在云系统上保留档案检索、利用日志,避免数据泄漏。

  大数据时代是信息化社会发展的必然趋势,我们必须紧紧跟随时代发展的潮流,在技术上、制度上、价值观念上做出迅速调整并牢牢跟进,使档案资源信息化朝着社会化、多元化、开放性和先进性发展,并以政府、企业、公众的需求为导向,提供网络化、智慧型的社会服务,使档案信息资源创造更大的社会价值。

  参考文献:

  陶水龙:《大数据时代下数字档案馆面临的机遇和挑战》,中国档案,2013.10

  兰祝刚、惠英、李刚:《大数据时代下的档案工作》,中国档案,2013.09

  祝庆轩、桑毓域、方昀:《基于云计算的档案信息资源共享模式研究》,兰台世界,2011.15

  胡亚南、刘平:《浅谈云计算环境下数字档案馆信息资源的安全管理》,档案时空,2013.12

  李广都、何振才:《基于云计算技术的民生档案信息服务》,中国档案,2012.10

  谢亚非:《对数字档案云计算管理的思考》,档案时空,2012.04

  刘伟谦、李华莹:《云计算在档案馆中的应用模式初探》,湖北档案,2011.09

  郭永宏:《迈向信息化政府——大数据时代的政务管理》,支点,2013.09

  黄正鸿:《云计算在档案信息化领域的应用启示》,中国档案,2011.05

  作者简介:陈虹蓉,女,汉寿县档案局业务股,法学专业。

  联系电话:13607363979