大数据时代!AI识别技术在数字档案资源建设中的实践探析

档案资源建设与档案价值挖掘

档案数字化是档案信息化建设中的重要环节,但由于在实际操作过程中存在人力耗费大、信息完整度低、信息处理效率低等问题,使其成为档案信息化发展的瓶颈。基于AI识别技术的国土和规划档案价值挖掘研究,旨在围绕AI识别技术与档案价值挖掘的深度融合,提高信息处理效率,为自然资源部门业务管理提供更完善的信息资源辅助服务,同时为“智慧城市”的建设提供参考经验。

为评估档案AI识别技术在实际档案业务工作当中的应用价值,利用定制开发的AI识别模型,对馆藏2008-2012年已扫描的规划许可证和申请表等文件进行识别,选择建设单位、用地面积、容积率等16个字段进行信息识别与核对,并对照实物档案验证分析。

关键技术和总体技术框架

图像处理算法

人工智能对图像处理的算法有很多种,有些还不是特别成熟,本研究尝试将多种智能算法进行融合,根据不同场景定制不同图像优化算法,使得被识别文件达到内容突出、图像矫正、去噪等效果,达到较高准确率的目的。图像处理优化算法包括以下几种:

PDF转JPG图片

国土和规划档案大部分都是以PDF形式存储,而人工智能识别需要以图片为基础,因此开发了此功能模型算法作为AI识别的先决条件。

图像去噪

国土和规划档案中存在大部分陈旧文档,且陈旧文档上存在字体迹癍、染色、红印、蓝印等干扰因素,针对扫描成品的PDF格式文件进行图像去噪来提高识别准确率。

移位表格的切割

涉及到很宽的图片,如包含两个以上的表格图片时,需要先进行表格的整体分割,将其子表格分开后再单独进行识别,可有效降低识别错误率。

表格提取

针对以表格形式进行存储的文档,受表格线等因素影响,普通文字识别技术在有表格的场景下识别精度会明显降低。该算法将图片中的所有表格取出,包括其中的位置信息及每一栏的子表格数,以便于将AI识别的识别结果进行分类分区域整合、提高识别准确率。

表格补全

陈旧文档的文档扫描件存在大量的表格残缺,尤其是有旋转角度的残缺表格,包括表格线大量缺失,表格边角缺失,表格线存在持续断点的场景,该算法可以将表格结构信息还原,可以避免漏掉部分信息。

识别结果优化

采用的正则表达式能满足任意场景信息的提取要求,将识别结果转换成目标格式,如时间类型,电话格式,将识别结果优化是数据存储、数据挖掘的必要前提。

基于项目识别的排序分组

在进行大批量的档案识别时,某一批档案编号往往具有一定的规则,根据编号规则搭建的分组排序算法,使每一批的档案能快速准确的被分组并排序,实现自动有序识别,进而提高识别的效率。

体技术逻辑业务流

总体技术架构如下图所示,从第二步开始,每步都会运行一次PDF转JPG图像算法,使生成的图像进一步根据表格位置进行智能切割,在识别之前校验每个PDF的标题是否与对应模板一致,若一致则进一步使用表格提取算法提取表格信息,进而将信息通过AI识别转换成计算机可读字符,经过人工录入员的校验核对,完成数据安全入库。

△ 技术逻辑业务流

实验结果和分析评估

实验结果

实验数据共包括市局与四个分局共计830个PDF文件,本次实验数据主要包括许可证(印刷体)、申请表(手写体)两类数据,通过AI识别之后返回识别信息与置信度。具体实验数据情况与识别总时间如表1所示,经过人工抽查之后的置信度和准确率如表2所示:

△ 表1:实验数据情况及用时

△ 表2:识别信息的置信度及准确率(部分字段)

AI识别的分析与评估

影响识别准确率的原因有很多,如档案模版样式是否统一、标准、规整;字体是否清晰、工整;AI识别引擎的性能好坏;图像处理技术是否先进、实用。依据宁波市档案数字化研究案例的实验结果,分别从准确性、效率、稳定性、优化是否有效方面对AI识别进行分析与评估如下:

准确性分析与评估

针对历史档案中的手写体(包含数字与文字),因其复杂的笔迹粘连、连笔字等不可预知可变因素,AI识别技术对手写体识别准确率不会太高,但对于以印刷体文字为主的近期档案识别准确率较高,可以满足数字化应用。

效率分析与评估

基于AI识别技术平均处理一份档案的时间约为3分钟(包含网络传输时间、PDF转JPG时间、文字识别时间、人工校准时间)。而传统的数字化流程至少需要5分钟时间完成一份档案的录入,总体处理时间节约30%。

稳定性分析与评估

PDF转换JPG图像能稳定快速的进行编码转换,图片智能切割算法能稳定,超快速的自动判断图像存在表格数量并执行动态切割操作,使得切割后的图像能完全保留原图像中的表格块,且算法带有自动纠错功能,因此稳定性较高。

优化算法有效性分析与评估

以表格完整性切割算法和表格补全算法为例,被识别文件包含两个以上的表格时,若通过表格切割算法进行表格的整体分割后再进行识别,与不进行切割直接识别的结果相比,直接进行识别的错误率较高。普通文字识别技术在有表格的场景下,识别精度不尽如人意,存在大量信息漏识别、误识别,表格补全算法解决了该难题,降低了纸质文档信息恢复的工作难度,因此优化是有效的。

总结

探索AI识别技术在自然资源档案数字化建设中的应用研究,旨在减少录入人员的工作量、提高工作效率。研究发现AI识别技术在准确、效率、友好性方面有着显著优势,将会带动宁波市自然资源档案数字化建设和档案价值挖掘应用的拓展和创新,为统筹城市资源,实现资源共享和信息化建设提供新手段。

【参考文献】

[1]刘珂,人工智能在档案管理中的应用探析【J】.兰台世界,2019(2);

[2]刘芳,李黎,城市地理信息数字档案馆建设研究【J】.中国档案,2014(10);

[3]张凤,浅析城建档案信息资源的开发与利用【J】.城建档案,2012(4)。


内容来源:大数据中心(转载仅做学习交流,侵权请联系删除)
(0)

相关推荐