归档网络信息价值判断的研究现状与展望

湖南省档案局 hnsdaj.hunan.gov.cn 时间：2010-09-10 【字体：大中小】

归档网络信息价值判断的研究现状与展望

　　作者：仇壮丽

　　湘潭大学公共管理学院

　　摘要：做好网络信息归档工作具有重要的社会意义。国内外对网络信息归档保存的研究对网络信息筛选关注不够，不同归档主体的价值判断标准不同，因此很多归档机构制定的选择标准不具有普遍指导意义。文章提出运用本体论方法，融合不同学科关于信息价值的理论，构建网络信息价值判断模型，实现网络信息的自动选择归档。

　　关键词：网络信息，归档保存，价值判断

　　Internet已经成为全球信息资源生产、发布、获取、传递、交流的最大平台，网络信息的更新频率不断加快，生命周期日益缩短，为了防止网络时代记忆的缺失，许多学者、机构开始研究网络信息的归档保存问题。网络信息的归档保存面临三个挑战：首先，网络信息增长快，半衰期短，如果不采取积极的措施及时归档，很多信息形成之后就会立刻消失，大量的原生文化资源得不到有效的保护；其次，信息量太大，尽管目前有一些项目在采集网络信息过程中采取了诸如去重、压缩等手段，全部归档保存仍然是不现实的；而且网络中充斥的大量垃圾信息、虚假信息应该排除在归档范围之外；再次，不同的领域采取的价值判断标准不一样，信息检索领域根据“链接”或“引用”来判断网页的价值；图书馆学领域根据信息资源的内容来聚类或分类文献；档案学领域通过来源原则，根据机构职能的重要程度判断网站的价值。总之，在网络信息归档领域缺乏一个基于本体、可以实现领域知识共享的价值判断模型。

　　1 研究意义

　　1.1 有利于保护网络文化遗产，维护国家文化安全

　　党的十七届四中全会强调，随着世界多极化、经济全球化深入发展，“全球思想文化交流交融交锋呈现新特点”。Internet已经成为事实上的文化信息资源生产和交流平台，将网络中有价值的原生信息纳入归档保存范围，有利于文化交往过程中实现正确的价值观引导，有利于在全球文化冲突、相互对话和相互吸纳中保持文化的民族性和自主性。

　　1.2 有利于促进社会稳定，维护国家经济安全

　　网络信息的匿名性和易逝性，使人们愿意相信网络信息犹如羚羊挂角、无迹可寻（特别是即时信息和短信）。所以人们在没有审视其真实性的情况下随意转发、传播这些信息，从而给社会带来严重危害。2007年一条“香蕉含有类似SARS病毒”的短信使我国香蕉产业损失近10亿元。网络信息的选择性归档是进行信息控制和引导的前提。

　　1.3 有利于记住组织历史，维护组织的完整性

　　网站成为人们交流的平台，也是电子政务、电子商务中公民与政府、公民与企业以及政府与企业之间交流的重要平台。这种平台可以看作是政府机构和商业组织的“虚拟部门”。记住网站在重要历史时刻的“原貌”，是维护机构历史完整的重要举措，可以作为维护电子政务信息、电子商务信息安全的补充手段，更是传统档案工作在网络时代的扩展。

　　1.4 有利于降低管理维护成本，建立科学的归档保存体系

　　网络信息的数量越来越大，而网络信息的质量是不均匀的。网络中除了大量有价值的原生信息之外，还充斥着大量垃圾信息、虚假信息，如果不对归档对象进行筛选，既影响高质量信息的利用，也浪费大量资源，而构建网络信息归档领域本体知识库和基于本体的价值判断模型，则使建立基于协作的分布式网络信息归档保存体系成为可能。

　　2 国内外研究现状述评

　　2.1国外研究现状

　　国外学者关于网络信息归档保存的研究与实践主要侧重于五个方面：

　　（1）对网络信息归档保存项目的经验进行总结。Marcum对每个项目的组织形式、信息组织技术以及取得的成果进行了分析[1]。广濑信己对美国、英国、法国、芬兰、瑞典、挪威、丹麦、奥地利、澳大利亚、中国、韩国、日本等10多个国家的网络信息归档保存项目从负责机构、开始时间、规模、机器人等方面进行了总结[2]。

　　（2）对网络信息归档模式的研究。在各国网络信息归档实践的基础上，国外学者将网络信息归档模式分为五种类型[3, 4]：（1）全面采集，如瑞典的Kulturarw3 和芬兰的EVA项目；（2）选择性采集，如澳大利亚的PANDORA；（3）主题方法，如MINERVA项目进行的2002大选和冬奥会项目的归档；（4）呈缴方法，如荷兰与瑞典分别通过协议和法律规定出版商将其在线内容提交给国家图书馆；（5）组合方法，如法国和丹麦综合采用全面采集、选择采集、主题采集的技术，实现馆藏的最优化。此外还有基于学科领域的归档方法，如德国的DACHS。

　　（3）对归档网络信息长久保存技术的研究。载体和技术的过时一直是归档信息长期保存的主要挑战，为此有学者提出保存原始应用程序以及相应的操作系统与硬件、更新、迁移、仿真、封装等技术方案。OCLC和 RLG在2003年启动保存元数据实施战略（PREMIS）项目，提出了在数字资源的长期保存过程中实施保存元数据的具体指导方案。

　　（4）对网络信息归档合作模式的探索。有学者对国际上知名归档保存项目在合作机构、合作范围、合作方式、合作内容等方面的经验进行总结[5]。Internet Archive是成功合作的典范，其合作者包括国家级图书馆、大学以及内容提供商。

　　（5）对网络信息归档相关法律问题的研究。美国、法国、日本、英国、德国、南非、丹麦、荷兰、挪威、瑞典等国家都出台了网络信息呈缴的规定[6]；很多国家还通过修改知识产权法来解决网络信息归档中的知识产权问题，如法国2006年通过的知识产权法规定“生产者或出版者不能用代码或访问控制来阻止授权机构采集其WEB站点的信息。”[7]

　　2.2国内研究现状

　　国内的研究与实践探索主要体现在五个方面：

　　（1）介绍国外网络信息保存项目的进展，如关于美国、挪威、澳大利亚等国家网络信息保存项目的介绍[8]。

　　（2）参与网络信息保存国际项目的合作，如中国人民大学的冯惠玲、王健、安小米等教授主持、参与了InterPARES 3中国项目组的研究。

　　（3）少数机构开始网络信息保存的实验工作，如国家图书馆开展的“网络信息资源采集与保存试验项目（WICP）”，对表层网页和深层网页的采集与保存进行了初步研究。

　　（4）对网络信息资源保存的理论研究，如吴振新在所主持的国家社科基金项目“网络信息资源保存的理论与方法研究”中，对网络信息资源保存的发展历史、采集策略、存档策略、信息利用等方面进行了总结[9]。

　　（5）对数字信息长期保存的研究，如对我国数字资源保存状况的调查，对数字信息长期保存文件格式、技术方案、策略的研究[10]。

　　2.3国内外研究述评

　　总体而言，国内外理论研究与实践探索存在以下不足：

　　（1）对归档信息的筛选重视不够。采集、保存和利用是网络信息归档保存的三大关键要素，而采集的质量影响着保存策略与利用效果。从目前的研究和实践来看，学者对信息的保存与利用关注较多，对信息采集主要关注的是自动采集技术，即机器人的开发，但是对如何科学筛选以保证采集信息的质量关注较少。

　　（2）很多项目制定的选择指南不具有普遍指导意义。很多保存项目采用开源软件（如wget）来采集信息，这些软件只能做采集深度的简单判断，而采集范围的确定、网站内容的筛选往往需要由人工完成，这直接导致网络信息采集的成本过高；而全采集项目基本上放弃了对内容的筛选，鱼龙混杂的网络信息不仅加大了保存的成本，也妨碍了归档信息的利用。

　　（3）缺乏对网络信息价值判断的理论研究。尽管各个国家已经意识到网络信息归档保存的重要性，但是对如何进行网络信息的价值鉴定，如何选择有价值的信息仍然缺乏专门的研究。在选择性归档项目中，由于其选择标准缺乏科学的理论支撑，因此所保存的信息是否具有代表性，是否可以全面反映网络时代的社会政治、经济、文化、科学成果都值得怀疑。

　　（4）不同学科之间缺乏交流与合作，归档网络信息价值判断没有统一标准。学科领域的差异，机构职能的不同，对信息价值的判断标准不一样，这会导致其选择标准不一致。网络信息归档领域缺乏一个基于本体的通用价值判断模型。

　　3 网络信息价值判断模型研究思路

　　归档网络信息价值判断模型的研究可以沿着“理论界定→本体描述→模型构建→模型应用→模型验证”的思路展开。首先，界定网络信息价值的概念，明确归档网络信息价值判断的意义；其次，通过描述领域本体，实现归档主体之间的知识共享；第三，通过探索网络信息选择行为，分析影响归档信息筛选策略的因素，对主体的职能与定位、信息价值的表现形式、网络信息价值判断的粒度进行分析，构建一个操作性强的模型；第四，在合适的归档保存机构中开展试验，将该模型与元数据、网络信息采集机器人结合起来，实现归档网络信息的自动筛选；最后，由用户和专家对该模型的筛选效果进行评价。具体的研究内容包括：

　　3.1理论界定――网络信息价值判断的概念与意义

　　（1）网络信息价值的概念，从图书馆学、情报学、档案学、经济学等学科的角度分析网络信息价值的定义。（2）决定网络信息价值的因素，从客体和主体的角度研究网络信息价值的来源。（3）网络信息价值判断在网络信息归档流程中的意义。由于网络信息的规模大，全面归档只能是空想；而网络信息的不同质会使全面归档妨碍归档信息的有效组织和利用。

　　3.2 本体描述――网络信息价值判断领域的知识共享

　　本体是领域内共同认可的概念和概念间关系的描述，对于领域内不同主体之间的交流与知识共享具有重要意义。（1）在领域专家的帮助下识别本体构建目标、范围，获取来自图书馆学、情报学、档案学、经济学等领域关于网络信息价值的知识，确定核心概念。（2）自顶向下地对核心概念进行扩展，根据上层父类分别逐步细化，说明其下级子类，建立整个本体概念层次结构，并运行面向对象的方法定义概念的属性；（3）利用OWL 语言对概念模型进行形式化描述，实现网络信息价值判断领域本体的编码，同时利用本体编辑工具生成类的实例。

　　3.3 模型构建――探索网络信息价值判断的黑箱结构

　　归档网络信息的选择模型可以看成是一个黑箱，输入选择策略和原始网络信息之后，筛选出具有长久保存价值或对归档主体具有保存意义的信息。具体内容包括：（1）考察黑箱，对现有选择性归档项目的选择策略进行分析。（2）研究网络信息价值判断主体的需求及其影响。（3）研究网络信息价值判断模型的变量，包括信息价值、情报价值、凭证价值、主体需求、保管和维护成本等等。（4）研究网络信息价值判断模型的客体，即网络信息价值判断的粒度――知识单元、单个网页、整个网站、整个域名、某个主题抑或其它。（5）建立一个操作性强的价值判断模型。

　　3.4 模型应用――实现归档网络信息价值的自动判

　　主要研究内容包括以下四个方面：（1）将模型应用于采集策略的制定，科学确定网络信息采集的范围。（2）网络信息价值判断模型与元数据结合，实现归档网络信息价值的自描述。（3）将该模型与机器人排除协议（REP）结合起来，使整个网站的价值能自动体现，从而简化网络信息采集流程。（4）将网络信息价值判断模型应用于网络爬虫（Robots），实现采集过程中基于网络信息价值的自动筛选。

　　3.5模型验证――基于理论与经验总结的实证分析

　　主要是通过试验，验证该模型的可行性。验证分为三个阶段：（1）调查。通过网络观察、问卷调查等方法，了解公共文化事业机构、私人机构以及信息生产者所进行的网络信息保存实践的运作模式；了解这些项目的筛选效果，如信息采集频率、网络信息完整性、网络信息之间链接的有效性等，找出网络信息选择性归档的瓶颈。（2）试验。研究通用搜索引擎所使用的网络爬虫采集算法，了解其在搜索广度与深度方面的局限性，在此基础上集成网络信息价值判断模型，通过程序和标准的开发，实现归档网络信息的自动选择。（3）评估。选择合适的机构，将集成价值判断模型的网络信息选择归档系统投入试运行，并根据用户评价和专家评价进一步改进模型。

　　研究的技术路线如下图所示：

　　图1 课题研究的基本思路与技术路线

　　4 几点启示

　　4.1 网络信息价值判断是选择性归档的前提

　　网络信息数量呈指数增长，而且网络信息是不同质的，全部归档保存既非必要，也无可能。因此必须对归档网络信息进行筛选，将具长久保存价值，能反映社会政治、经济、文化发展面貌的网络信息纳入保存体系。

　　4.2 网络信息价值本体的构建需要融合多学科的理论知识

　　不同学科有不同的信息价值判断标准，本体构建需要融合这些知识：经济学认为稀缺性决定信息的价值；情报学根据引用率来衡量网络信息的价值；档案学、历史学认定越老的信息越有价值，提出高龄档案受到尊重的理论，同时对形成机构的职能、名誉给予充分关注；图书馆学认为经过有序组织的信息才有价值；信息资源管理理论认为信息作为公共物品，只有充分共享才能发挥其价值。

　　4.3 网络信息归档选择的策略受诸多因素的影响

　　首先，归档主体的职能和定位决定归档信息的采集范围；其次，网络信息的信息价值、情报价值、凭证价值、文化价值以及保存维护成本决定了网络信息归档保存的可持续性发展；第三，网络信息价值判的客体既包括信息本身，也包括背景信息，而且价值判断粒度（知识单元、网页、网站、主题、学科等等）选择的不同也会影响模型的输出。

　　4.4 归档网络信息的采集必须实现自动化

　　尽管目前有些归档项目采用手工采集的方法，面对日益增长的网络信息资源，手工采集的成本会越来越高。将网络信息价值判断模型与元数据和机器人排除协议结合起来，能实现网络信息价值的自描述，集成价值判断模型的信息采集机器人则是实现归档自动化的前提。

　　4.5 网络信息归档保存需要建立基于协作的分布式归档保存体系

　　网络信息价值本体通过描述、捕获信息价值领域的知识，确定图书馆学、情报学、档案学、经济学领域内关于价值的共同认可的概念和概念间的关系，可以提高整个社会的归档意识，帮助不同归档主体交流与共享知识，并建立基于协作的分布式归档保存体系。

　　参考文献

　　[1]. Marcum, D.B., Landscape of digital archiving. Law Library Journal, 2004. 96(4): p. 605-8.

　　[2]. Nobuki, H., Digital archiving of Web resources: focusing on WARP project. Journal of Information Processing and Management, 2005. 47(11): p. 721-32.

　　[3]. Paynter, G., et al. , A year of selective Web archiving with the Web curator at the National Library of New Zealand. D-Lib Magazine, 2008. 14(5-6): p. 10 pp..

　　[4]. Willer, M., et al. , Selective archiving of Web resources: a study of processing costs. Program: Electronic Library and Information Systems, 2008. 42(4): p. 341-64.

　　[5]. 王婷, 吴振新与高凡, 国际网络信息资源保存的合作机制分析. 图书馆建设, 2009(03): 第6-9页.

　　[6]. Joint, N., Legal deposit and collection development in a digital world. Library Review, 2006. 55(8): p. 468-73.

　　[7] Lasfargues F., Oury, C. and Wendland. B. Legal deposit of the French Web: harvesting strategies for a national domain. In 8th International Web Archiving Workshop (IWAW08), Aarhus, Denmark, September 2008.

　　[8]. 赵俊玲, 国外关于网络信息资源保存的研究. 中国图书馆学报, 2004(03): 第1页.

　　[9]. 吴振新, “网络信息资源保存的理论与方法研究”专辑序. 现代图书情报技术, 2009(01): 第1页.

　　[10]. 刘家真, 我国数字资源保存状况调查. 中国图书馆学报, 2006(05): 第71-75页.

主办单位：湖南省档案局湖南省档案馆
地址：湖南省长沙市韶山北路1号省委大院三办邮编：410001
综合部：0731-82217010 查档咨询：0731-82688555 公安机关备案号：43010302000524
备案号：湘ICP备05012035号网站标识码：4300000040 技术支持：湖南省人民政府发展研究中心