基于胶囊网络和语言模型的政务文字识别

Character recognition for government affairs based on capsule network and language model

下载PDF

导出

摘要文字识别是计算机视觉领域中的重要研究内容之一,为建设智能政务服务奠定了基础.然而政务图像质量参差不齐、字体风格多样,造成识别准确率偏低.针对上述问题,提出了一种结合胶囊网络和语言模型的CNLM模型,并将字符切割与胶囊网络进行结合.首先将政务图像数据集构造为文字识别图像和语言模型句子样本进行分阶段训练,一阶段通过公开字符切割数据集对视觉模型进行预训练,通过句子样本和已有结构化数据对语言模型进行预训练;二阶段将视觉模型与语言模型进行联合训练,并对它们的输出结果进行选择迭代,最后得到图像包含的文字序列信息.该方法在政务图像数据集和GA-HWDB数据集上测试,其准确率相比VisionLAN分别提高2.12%和2.69%. Character recognition is one of the important research contents in the field of computer vision,which lays the foundation for building intelligent government services.However,the uneven quality of government images and diverse font styles cause the low recognition accuracy.In order to solve above problems,a CNLM model combining capsule network and language model is proposed,and the character cutting is combined with capsule network.Firstly,the government image dataset is constructed as character recognition images and sentence samples of the language model for training in stages,in the first stage,the visual model is pre-trained by public character cut dataset,and the language model is pre-trained by sentence samples and existing structured data.In the second stage,the visual model and language model are jointly trained,the output results of them are selected and iterated to finally obtain the text sequence information contained in the images.The method is tested on both the government image dataset and GA-HWDB dataset,and its accuracy is improved by 2.12%and 2.69%compared with VisionLAN.

作者于龙洋王德军孟博吴余龙胡宗华段伟 YU Longyang;WANG Dejun;MENG Bo;WU Yulong;HU Zonghua;DUAN Wei(College of Computer Science,South-Central Minzu University,Wuhan 430074,China;Wuhan Lilosoft Co.,Ltd,Wuhan 430015,China)

机构地区中南民族大学计算机科学学院武汉力龙信息科技股份有限公司

出处《中南民族大学学报（自然科学版）》 CAS 2024年第3期393-400,共8页 Journal of South-Central University for Nationalities：Natural Science Edition

基金湖北省科技创新人才计划资助项目(2023DJC094) 国家重点研发计划资助项目(2020YFC1522900) 中南民族大学研究生学术创新基金资助项目(3212023sycxjj168)。

关键词智能政务文字识别胶囊网络语言模型 intelligent government affair character recognition capsule network language model

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王德青,吾守尔·斯拉木,许苗苗.场景文字识别技术研究综述[J].计算机工程与应用,2020,56(18):1-15. 被引量：19

二级参考文献12

1牛小明,毕可骏,唐军.图文识别技术综述[J].中国体视学与图像分析,2019,0(3):241-256. 被引量：14
2Qingqing WANG,Ye HUANG,Wenjing JIA,Xiangjian HE,Michael BLUMENSTEIN,Shujing LYU,Yue LU.FACLSTM:ConvLSTM with focused attention for scene text recognition[J].Science China(Information Sciences),2020,63(2):35-48. 被引量：11
3李凯,艾斯卡尔.艾木都拉.基于边缘和基线的维吾尔文图像文字定位算法[J].计算机工程与应用,2014,50(10):203-207. 被引量：8
4马希荣,王行愚.西夏文字识别中的图像预处理[J].计算机工程与应用,2002,38(2):48-50. 被引量：8
5王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：51
6姜志威,丁晓青,彭良瑞,刘长松.低数据资源条件下基于结构信息共享的无切分维文文档识别字符建模[J].电子与信息学报,2015,37(9):2103-2109. 被引量：4
7杨飞.自然场景图像中的文字检测综述[J].电子设计工程,2016,24(24):165-168. 被引量：12
8弓耀辉.图像文字识别中的预处理技术研究综述[J].信息通信,2017,30(9):291-292. 被引量：10
9依再提古丽.克热木,地里木拉提.吐尔逊,艾斯卡尔.艾木都拉.基于角点密集度的维吾尔视频文字区域定位[J].电视技术,2017,41(11):225-231. 被引量：2
10白翔,杨明锟,石葆光,廖明辉.基于深度学习的场景文字检测与识别[J].中国科学：信息科学,2018,48(5):531-544. 被引量：35

共引文献18

1袁伟,郭欣,田红楠.病例文字识别与提取方法综述[J].机电产品开发与创新,2020,33(6):138-140. 被引量：1
2陈太阳.基于卷积神经网络多特征融合的复杂背景字符识别[J].电脑知识与技术,2021,17(10):192-193. 被引量：2
3吴鑫磊,陶青川,张畅.基于DBNet网络的瓶盖文字目标检测[J].现代计算机,2021,27(14):47-53. 被引量：3
4李佳琪.基于OpenCV的生产日期字符识别研究[J].电子产品世界,2021,28(7):87-90. 被引量：1
5张开生,王泽.基于磁性纤维的加密纸张图像采集与识别研究[J].中国造纸,2021,40(6):64-70. 被引量：4
6宫法明,刘芳华,李厥瑾,宫文娟.基于深度学习的场景文本检测与识别[J].计算机系统应用,2021,30(8):179-185. 被引量：6
7熊炜,艾美慧,杨荻椿,李利荣,刘敏,王娟,曾春艳.基于深度学习的场景文本检测算法研究[J].光电子．激光,2021,32(7):728-734. 被引量：2
8刘艳菊,伊鑫海,李炎阁,张惠玉,刘彦忠.深度学习在场景文字识别技术中的应用综述[J].计算机工程与应用,2022,58(4):52-63. 被引量：15
9李云洪,闫君宏,胡蕾.局部与全局双重特征融合的自然场景文本检测[J].数据采集与处理,2022,37(2):415-425. 被引量：2
10潘杰,杨超宇.基于数据挖掘方法的瓦斯事故调查报告关键因素分析[J].哈尔滨商业大学学报（自然科学版）,2022,38(3):293-299. 被引量：1

1中国电子发布五项数据要素系列产品[J].中国信息安全,2024(1):106-106.
2李东永,皮灵敏,陈小静,陈吉利,陈丹.智治何以可能:ChatGPT应用于政务服务的前景与风险研究[J].经济与社会发展研究,2024(9):275-277.
3陈志峰,吕霁月,朱英嘉.澳门青年融入粤港澳大湾区内地城市发展的影响因素与对策[J].广东青年研究,2024,38(1):114-126. 被引量：1

中南民族大学学报（自然科学版）

2024年第3期

浏览历史

内容加载中请稍等...

基于胶囊网络和语言模型的政务文字识别

参考文献1

二级参考文献12

共引文献18

相关作者

相关机构

相关主题

浏览历史