档案数字化技术与标准研究(第十九次论文评选二等奖)

湖南省档案局 hnsdaj.hunan.gov.cn 时间:2011-12-31 【字体:
  
档案数字化技术与标准研究
谢靖琼   怀化市城乡建设档案馆
  【摘要】档案数字化是档案信息化的基础与前提,是传统档案馆走向数字档案馆的第一步。在档案数字化实践中,技术和标准又是重中之重。其中扫描技术、OCR技术、存储技术和安全保护技术是档案数字化核心的技术。采取统一的标准是实现数字信息长期存取、数据交换、信息共享及跨平台迁移的基础和保证,也是提高档案数字化质量的必然要求。有三大技术标准规范是关键,即分辨率、存储格式、压缩方式,直接关系到档案数字化的质量,关系到数字化的档案信息能否实现区域乃至全国共享。
  【关键词】:档案数字化;核心技术;标准规范
  随着社会信息化进程的加快,数字档案馆已成为各级各类档案馆的发展方向。而档案数字化又是数字档案馆建设的基本条件和前提,是传统档案馆走向数字档案馆的第一步。如何走好这一步,是档案工作者目前一个非常重要和紧迫的任务。在档案数字化实践中,技术和标准又是重中之重。
  1.档案数字化指导思想与原则
  1.1档案数字化指导思想
  以需求为导向,以利用为目的,充分利用计算机软硬件功能,最大限度发挥人力资源和数字化加工设备能力,保护馆藏档案原件完好,保证数字化档案真实准确,更好地发挥档案信息资源的作用。
  1.2档案数字化原则
  优先选择重要的、需要抢救的、利用率较高的、已经开放的档案数字化的优先性原则;解密档案数字化的及时性原则;目录数字化与全文数字化分步的时效性原则;档案数字化与档案鉴定同步、档案数字化加工与利用同步的一致性原则;选择本单位有特色的档案资源数字化的特色性原则;保护原件与数据真实准确的安全性原则。
  2.档案数字化的核心技术问题
  档案数字化是指档案部门利用扫描技术、OCR技术、数字摄影(录音、录像)技术、数据库技术、数据压缩存储技术等高新技术将传统介质档案通过扫描、拍摄、采集转换成为可在计算机系统中存储,在网络环境中传输的格式规范、结构有序的数字档案的过程。尽管档案数字化涉及多种具体的现代信息技术,但核心的技术,笔者以为主要包括档案数字化扫描技术、OCR技术、存储技术和安全保护技术,其中扫描及存储又决定了档案数字化工程的效率和成败。
  2.1扫描技术在档案数字化中的应用
  目前,大量的传统馆藏纸质档案以及照片档案、缩微胶片转换成数字化信息最关键一步是通过扫采用扫描方式将档案转换为数字化的形式。A3和A4纸质档案一般采用工业级高速文档扫描议,薄或厚纸质档案、彩照采用专业平板扫描仪,实物档案采用专业三维拍摄仪,胶片档案则采用胶片扫描仪。纸质档案扫描一般采用黑白二值图像;档案清晰度较差、带有图片的档案材料或黑白照片,可采用灰度扫描;页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。彩色照片则选择彩色扫。黑白扫描的格式为TIFF CCITT G4压缩格式,灰度扫描为16级LZW不压缩格式,彩色扫描选择真彩JPEG格式,分辨率选择范围在150dpi―200dpi之间。如果档案原文的清晰度相对模糊,在扫描时只要相对的调整亮度与对比度即可,无需调高分辨率。在遇到大于A3的图纸、报纸等时,通常情况是选用A3幅面的扫描仪将该图纸扫描成若干份A3大小的文件后进行拼接。实际工作中,受档案状况或扫描设备所限,也存有一些暂时无法进行数字化转换的档案,如纸张过于破损、发脆,或者某些尺寸过大的图纸等。而这些只能等待设备或者技术的更进后才可以解决。
  2.2 OCR技术在档案数字化中的应用
  OCR(Optical Character Recognition,光学字符识别)技术是一种快捷、省力的文字输入方式,实践证明其在档案信息数字化工程中的作用愈来愈显著。OCR技术在档案数字化中运用,主要过程是把纸质载体档案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多页的PDF文件,再利用OCR软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到档案信息的全文检索。
  在实际档案全文数字化过程中一般先把一份文件扫描成多页JPG、TIF或PDF文件,再运用OCR软件识别并判断识别效果,并进行必要的调整和修复就可以到达全文数字化的要求。进行OCR汉字识别的档案,扫描分辨率一般建议选择≥200dpi。在扫描生成页面后,OCR技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合档案数字化的要求。
  2.3存储技术在档案数字化中的应用
  没有存储技术作支撑,数字化的档案信息是不可能生存的。所有转化成电子档案的信息必须通过一定的技术进行保存,才能发挥其作用。随着数字档案信息量的剧增,存储规模也越来越大,信息度量单位也不断改变,从KB到MB,进而到TB、PB。存储这些大量信息不但要求存储设备有很大的储存容量,而且还需要大规模数据库存储处理这些数据,这就涉及到硬件随时读取的速度、数据集中与分布存储管理方法等问题。
  随着RAID技术的应用,存储设备在容量和传输速度上都有大幅度提升。目前,比较常用的有DAS、NAS和SAN系统。DAS是指将存储设备通过SCSI接口或光纤通道直接连接到应用服务器上。NAS即采用以太网和SCSI的即插即用存储技术将存储设备通过标准的网络拓扑结构,连接到一群应用服务器上。NAS存储设备是文件服务器存储专门化的产物,是文件服务器的条理延伸。SAN是独立于服务器网络系统之外的调整存储网络,采用高速的光纤通道作为传输媒体将存储设备与一群服务器连接。SAN把大型资料存储技术与高速资料访问技术结合在一起,服务器与存储设备之间的通信是通过光纤进行传输的。SAN网络上的服务器可以通过SAN直接访问存储设备,而无须通过局域网,使用户获得不低于100Mbos的资料系统访问速度。这三种技术各有优劣,应根据具体情况选择适应自身发展的存储技术。鉴于目前档案馆在设备、技术、人员方面的实际,建议采用第三种技术。
  2.4安全保护技术在档案数字化中的应用
  数据安全是档案数字化的生命线。当前最常用的技术手段是防火墙技术。防火墙是设置在不同网络或网络安全域之间的一系列部件的组合,通过在内网和外网之间建立网关,执行指定的安全控制策略,从而把内网与外网分开,达到保护内网免受外部非法用户侵入的目的。防火墙技术一般包括包过滤型、代理服务型、复合型、双端主机型、屏蔽主机型等。防火墙提供的是静态防御,对实时的攻击或异常的行为不能做出实时的反应,而且防火墙技术具有防外不防内的局限性,因此出现了防火墙联动技术,从而架构起立体的防护体系。防火墙联动技术主要有防火墙与防病毒产品联动、防火墙与认证系统联动、防火墙与入侵检测系统联动、防火墙与日志分析系统联动。通过这些联动可以控制数据流,大大提高计算机的安全。
  对于数字档案的安全,主要以PKI(Public Key Infrastructure,公钥基础设施)技术为基础,它由公开密钥密码技术、数字证书、证书发放机构(CA)和关于公开密钥的安全策略等基本成分共同组成的,为数字化档案的各种业务应用提供信息的真实性、完整性、机密性和不可否认性保证,并在业务系统中建立有效的信任管理机制、授权控制机制和严密的责任机制。通常PKI与PMI结合,能有效地提高授权控制能力。
  3.档案数字化技术标准规范问题
  采取统一的标准是实现数字信息长期存取、数据交换、信息共享及跨平台迁移的基础和保证,也是提高档案数字化质量的必然要求。现有国家档案局发布发布的档案数字化的相关标准规范有《纸质档案数字化技术规范》(DA/T31 2005)、《电子文件归档与电子档案管理规范》(GB/T 18894-2002〉、《文献档案资料数字化工作导则》(GB/T 20530-2006)、《缩微胶片档案数字化技术规范》(DA/T 43-2009)、《数字档案信息输出到缩微胶片上的规定》(DA/T 44-2009)等。一些地方档案行政管理部门也颁布地方标准规范。在这些标准规范中,有三大技术标准规范是关键,即分辨率、存储格式、压缩方式,直接关系到档案数字化的质量,关系到数字化的档案信息能否实现区域乃至全国共享。
  3.1国标中档案数字化的技术指标要求
  
档案类型
  技术指标
  存储格式
  备注
  黑白扫描图像
  建议扫描分辨率在100dpi以上(需OCR识别的建议200dpi以上)
  TIFF
  代替原件保存的推荐采用无损压缩的TIFF格式。提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。
  彩色扫描图像
  建议100dpi以上(需OCR识别的建议200dpi以上)
  TIFF
  JPEG
  图纸
  建议200dpi以上
  TIFF  JPEG
  照片扫描图像
  5英寸档案照片建议600dpi,其他规格按如下公式换算:扫描分辨率=600dpi/N(其中N=待扫描照片的长度值/5英寸照片的长度值)
  TIFF
  JPEG
  缩微胶片
  建议200dpi以上
  TIFF  JPEG
  
  音频
  音频采集最低要求:
  采样频率:44.1 kHz,
  量化级:16bit,单/双声道。
  WAV
  MP3
  WAV转MP3时建议位速率在128Kbit/s以上。
  视频
  视频采集最低要求:分辨率(像素):720*576,帧数:25帧/秒,
  视频数据速率:4Mbps,
  音频位速率:224Kbps,
  音频设定:立体声,
  音频采样频率:44.1kHz。
  AVI
  MPEG-2
  MPEG-4
  AVI转MPEG-2、MPEG-4格式时,推荐数据传输率>=4Mb/s,分辨率在352 x 288以上,帧速率>=24。
  3.2在实际操作中应注意的问题
  3.2.1现行技术标准是国家规范,具有比较大的宏观性。不能将国家档案局颁布的DA/T 31-2005行业标准作为唯一依据,如进行扫描时,不能认为其分辨率大于或等于100dpi就可以了。对于年代比较久远、字迹较为模糊的,就要适当地提高分辨率,要以扫描的页面能清晰反映原件原貌为准。要特别注意委托加工方式中的加工方处于成本考虑,钻委托方不懂技术及行业标准与地方标准在宏观规范与微观细则上差异的空子,故意选择了较低的分辨率。目前,很多地方相关的标准规范将纸质档案数字化分辨率要大于或等于200dpi,即不管需不需要OCR,这是最低要求。
  3.2.3 有插图、照片的档案材料,全部采用了TIF格式黑白二值图像文件,结果就是影响了效果,照片的层次感没有出来。不分年代、不管材料中字迹清晰程度,一律采用清一色的一种格式(或TIF或JPG),这也是不科学的。而在实际工作中,根据具体情况,除TIFF、JPEG等格式外,还采用RAW、PSD、BMP、PNG、DjVu等格式。
  3.2.3采用TIF格式时,直接选用了扫描仪默认G4(fax)。在存盘时一定要注意选择LZW的方式。采用TIF格式要尽可能的使压缩质量的衰减程度降到最低,就得选用LZW的压缩方式。JPG格式的压缩选择,在DA/T 31-2005中并没有被明确,在各地的地方标准中,为了考虑所处理图像文件的容量大小,又兼顾其质量,选择“中”度压缩为佳。
  4.结语
  档案数字化是档案现代化进程中的一场空前革命,同时也是一项利国利民具有重要意义的事情。做好档案数字化工作,技术是基础,标准规范是保障,而人才问题是关系到档案数字化成败的另一关键。这些正是我们所需要关注和探讨的,并最终找出解决这些问题的方案和策略,从而更有效地实现传统档案馆向数字化、信息化为技术特征的现代档案馆的转变。
  参考文献:
  [1]王键.关于档案数字化优化模式的探讨[J].档案学研究,2007,(1).
  [2] 伊恒.文件转化为档案的三个条件在电子时代的适用性[J].档案学,2006,(1).
  [3] 陈芙蓉,武永娜.档案信息化建设中数据描述标准的研究[J].档案学研究,2005,(3).
  [4]刘春燕.我国信息与文献标准化发展对策[J].情报学报,2006,(10).
  [5]傅荣校,翁敏曦.档案数字化扫描与存储格式比较研究[J].档案学通讯.2007,(2)
  [6] 郑鸥.关于档案全文数字化工作的思考[J].中国档案,2007(2).
  [7] 阎朝科.走出档案数字化困境的尝试[J].档案时空,2005(10).
  [8] 吴绪成,陈素萍.档案数字化质量的规范处理[J].中国档案,2007(2).
  [9] 宋莹.做好档案数字化工作的几点建议[J].机电兵船档案,2008(5).
  [10] 王雪纯.做好档案数字化工作的一点体会[J].黑龙江档案,2009(1).
 

档案数字化技术与标准研究(第十九次论文评选二等奖)

10446638