OCR技术在档案数字化中的使用方法
OCR技术在档案数字化中运用,主要过程是把纸质载体档案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多页的PDF文件,再利用OCR软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到档案信息的全文检索。
在实际档案全文数字化过程中一般先把一份文件扫描成多页JPG、TIF或PDF文件,再运用OCR软件识别并判断识别效果,并进行必要的调整和修复就可以到达全文数字化的要求。在扫描生成页面后,OCR技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合档案数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流OCR识别软件以及处理、分析、校对每页档案全文数字化用时在1分钟以内,装订50个页面的案卷数字化时间在30分钟左右。与人工单字符输入法相比,工作效率提高近十倍,工作强度成倍减少。运用OCR识别技术进行档案全文数字化,工作人员可以长时间连续工作,而纯人工输入连续工作的后果是差错率的居高不下,从而影响档案信息全文的检索和使用。