湖南省档案局

基于人工智能技术的OCR

发布时间：2021-08-30 湖南省档案局 sdaj.hunan.gov.cn 字体：大中小分享：

近年来，随着计算机视觉、自然语言理解、知识图谱等人工智能技术在OCR中的实际使用，OCR的性能和效率都得到了很大提升。通过深度学习的自适应学习驱动方式，能够更好地应对传统OCR产生的一些问题，简化参数预处理的流程，实现端到端的处理，提高OCR识别率。目前，基于人工智能技术的OCR在简体印刷文字方面的识别率已达98%以上。

人工智能OCR技术还能应用于具有多样性和复杂性的识别场景。如，不同大小、字体、颜色、亮度、对比度的文字，排列和对齐方式不相同的文字，图像的非文字区域与文字区域存在相似的纹理，低对比度、模糊断裂、残缺文字等。因此，人工智能OCR不仅能应用于文档的识别，还可应用于自然场景文字图像的识别。此外，人工智能OCR还能提高工作效率、节省大量成本。

基于此，将人工智能OCR应用在档案工作中，具有重要的作用和意义，必将成为支撑档案行业数字转型、智能升级、融合创新的重要基础。

人工智能OCR工作流程主要包括图像输入、文本检测、文本识别、人工确认、人工干预等。

首先，将需要识别的纸质档案数字化副本图像单个或批量导入OCR系统中。

其次，进行文本检测。文本检测主要是定位文字在数字图像中的位置，并进行位置标注。文本检测的方法主要有基于候选框的文本检测、基于语义分割的文本检测，以及基于两种方法的混合方法等。基于候选框的文本检测是先预生成若干候选框，之后再回归坐标和分类，最后经过NMS（非极大抑制）算法得到最终的检测结果；基于语义分割的文本检测是通过FPN（特征金字塔网络）直接进行像素级别的语义分割，并处理得到相关的坐标。

再次，进行文本识别。文本识别主要是针对定位好的文字区域，识别文本的具体内容，并将图像中的一串文字转换为对应的字符。文本识别的算法可分为基于CTC（连接时序分类）技术的方法和基于注意力机制的网络模型两大类。其中，基于CTC技术的方法可以有效地捕获输入序列的下文依赖关系，同时能够很好地解决图像和文本字符对不齐的问题，但在自由度较大的手写场景下会出现识别错误。基于注意力机制的网络模型主要应用于卷积神经网络特征权重的分配上，并提高强特征的权重、降低弱特征的权重，在由图像到文字的解码过程中有天然的语义捕获能力。

然后，进行人工确认。对OCR识别后的结果进行确认，判断是否出错。在人工确认过程中，可以采用后期批量处理等灵活性较强的方式。

最后，进行人工干预，修正OCR识别结果中可能存在的错误。