面向文本识别的CRNN模型的改进

Improvement of CRNN Model for Text Recognition

下载PDF

导出

摘要复杂场景下文本识别因阴影、残缺、模糊、虚化等因素会出现识别精度下降问题。鉴于此,提出一种基于特征融合与双向简化门结构的CRNN模型。首先引入特征融合机制改进卷积神经网络(CNN)模型,利用特征金字塔结构,多加一条自底向上的路径,将低层特征与高层特征融合在一起,以保留更多低层细节特征,提高场景文本识别精度;其次通过合并遗忘门与输入门,得到结构更简单、计算量和参数量更少的简化门结构替换长短期记忆(LSTM)网络改进循环神经网络(RNN)模型部分;最后设计消融实验验证改进后模型的有效性。三个数据集的测试结果表明:在ResNet50做主干网络时,与原始模型相比,改进后模型准确率提升了1.5%以上;在MobileNetV3做主干网络时,准确率提升了1.4%以上。 In complex scenarios,text recognition may experience a decrease in recognition accuracy due to factors such as shadows,imperfections and blurring.In view of this,a CRNN model based on feature fusion and bidirectional simplified gate structure is proposed.Firstly,a feature fusion mecha-nism is introduced to improve the CNN model.Utilizing the feature pyramid structure,an additional bottom-up path is added to fuse low-level features with high-level features,in order to retain more low-level detailed feature information and improve the accuracy of scene text recognition.Second-ly,by merging forgetting gates and input gates,a simplified gate structure with less computation and parameter complexity is used to replace LSTM to improve the RNN model.Finally,ablation experi-ments are conducted to verify the effectiveness of the improved CRNN model.By testing three data-sets the experimental results show that when ResNet50 is used as the backbone network,the accura-cy of the proposed model is improved by more than 1.5%compared to the original model;when u-sing MobileNetV3 as the backbone network,the accuracy is improved by over 1.4%.

作者吕艳辉刘明鑫 LÜYanhui;LIU Mingxin(Shenyang Ligong University,Shenyang 110159,China)

机构地区沈阳理工大学信息科学与工程学院

出处《沈阳理工大学学报》 CAS 2024年第4期27-31,共5页 Journal of Shenyang Ligong University

基金辽宁省教育厅高等学校基本科研项目(JYTMS20230192)。

关键词特征融合长短期记忆网络简化门结构 feature fusion long short-term memory network simplified gate structure

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1齐秀芳,吴陈.不规则场景文本的识别方法[J].软件导刊,2022,21(6):200-204. 被引量：3
2韩珊珊,王升辉,万丽莉.一种面向新闻文本的生成式中文摘要生成模型[J].中国传媒大学学报（自然科学版）,2023,30(3):24-30. 被引量：1
3张少宇.基于人工智能机器学习的文字识别方法研究[J].电脑编程技巧与维护,2022(9):154-156. 被引量：5
4曾鹏,李曦,赵璐,杜彦辉.基于MobileNet和文本识别匹配的证件图片分类算法[J].中国人民公安大学学报（自然科学版）,2023,29(3):52-58. 被引量：1
5魏永合,宫俊宇.基于CNN-LSTM-Attention的滚动轴承故障诊断[J].沈阳理工大学学报,2022,41(4):73-77. 被引量：8
6华春梦,臧艳辉,马伙财.一种基于CRNN的车牌识别算法研究与应用[J].现代信息科技,2021,5(20):78-81. 被引量：5
7王雪娇,张超敏.基于CNN和LSTM的自然场景文本检测应用[J].仪表技术,2020(9):17-23. 被引量：1
8林金朝,文盼,庞宇.基于特征金字塔网络的自然场景图像文本检测[J].重庆邮电大学学报（自然科学版）,2022,34(1):155-163. 被引量：3
9王文亮,李延祥,张一帆,韩鹏,刘识灏.MPANet-YOLOv5:多路径聚合网络复杂海域目标检测[J].湖南大学学报（自然科学版）,2022,49(10):69-76. 被引量：11
10Minghui LIAO,Boyu SONG,Shangbang LONG,Minghang HE,Cong YAO,Xiang BAI.SynthText3D:synthesizing scene text images from 3D virtual worlds[J].Science China(Information Sciences),2020,63(2):65-78. 被引量：2

二级参考文献46

1姜倩,刘曼.文本检测与识别在细粒度图片分类中的应用[J].计算机系统应用,2020(10):248-254. 被引量：3
2史敏红,李树文,杨志.基于卷积神经网络的智能车牌识别研究[J].电视技术,2021,45(9):89-91. 被引量：2
3康雪玮,于文雅,谭钧恺,邓超,巩红晖,夏辉.基于深度学习的债券图表数据光学字符识别(OCR)检测与文本识别的应用[J].办公自动化,2021,26(14):54-58. 被引量：11
4黄剑华,颜子夜,唐降龙.基于小波重构的视频图像文本检测方法[J].哈尔滨工业大学学报,2006,38(9):1458-1460. 被引量：2
5王文震.基于流形学习的视频中文文本检测算法[J].科技通报,2012,28(10):46-48. 被引量：11
6黄凯奇,任伟强,谭铁牛.图像物体分类与检测算法综述[J].计算机学报,2014,37(6):1225-1240. 被引量：191
7王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：49
8罗建豪,吴建鑫.基于深度卷积特征的细粒度图像分类研究综述[J].自动化学报,2017,43(8):1306-1318. 被引量：141
9王军,夏利民.基于深度学习特征的异常行为检测[J].湖南大学学报（自然科学版）,2017,44(10):130-138. 被引量：11
10哈恩楠,吉立新,高超.基于对象建议算法的自然场景文本检测[J].计算机应用研究,2018,35(2):624-627. 被引量：6

共引文献29

1Fengling MAO,Bingpeng MA,Hong CHANG,Shiguang SHAN,Xilin CHEN.Learning efficient text-to-image synthesis via interstage cross-sample similarity distillation[J].Science China(Information Sciences),2021,64(2):15-26. 被引量：1
2肖雄,徐伟峰,王洪涛,苏攀,高思华.基于Transformer的细粒度图像中文描述[J].吉林大学学报（理学版）,2022,60(5):1103-1112. 被引量：1
3郭利荣.基于数据挖掘地址的文本信息提取方法[J].信息记录材料,2022,23(10):30-32.
4段文婷.基于迁移学习的英语识别方法[J].电子设计工程,2023,31(7):21-24.
5刘天顺,谷晓娇,李时雨.基于支持向量机和盒维数的滚动轴承状态预测[J].沈阳理工大学学报,2023,42(3):82-87.
6李智皓,鲁殿君,吕荣水,刘伟.基于振动图像和卷积神经网络的滚动轴承故障诊断方法研究[J].工程机械,2023,54(5):60-66. 被引量：1
7徐渡,李思颖,金佳凝,徐旖屏.基于深度学习的车牌识别系统设计[J].电脑知识与技术,2023,19(15):21-23.
8王海瑞,赵江河,吴蕾,谢思远.针对CenterNet缺点的安全帽检测算法改进[J].湖南大学学报（自然科学版）,2023,50(8):125-133.
9张鹏,黄亮,杨露菁,阚钦高.基于注意力融合的海上目标检测算法[J].舰船科学技术,2023,45(16):120-124. 被引量：1
10张善关,王伟瀚.高速公路国际标准集装箱车辆预约通行资料审核中的OCR技术探究与应用[J].中国交通信息化,2023(9):139-142.

1赵志宏,何朋,郝子晔.一种道路裂缝检测的变尺度VS-UNet模型[J].湖南大学学报（自然科学版）,2024,51(6):63-72. 被引量：1
2黄韬,谈沙,谢人超,刘韵洁.网络操作系统的研究进展与展望[J].北京邮电大学学报,2024,47(2):1-10.
3田嘉欣,李浩源.基于遗传编程的符号回归在化学和材料研究中的应用与展望[J].材料导报,2024,38(S01):268-274.
4胡艺龄,赵梓宏.智能时代学校组织变革的管理者——教师协同关系研究:基于多主体仿真方法[J].电化教育研究,2024,45(7):105-112.

沈阳理工大学学报

2024年第4期

浏览历史

内容加载中请稍等...

面向文本识别的CRNN模型的改进

参考文献10

二级参考文献46

共引文献29

相关作者

相关机构

相关主题

浏览历史