基于卷积神经网络的竖排版繁体中文图像文本化研究被引量：1

Textualization of Traditional Chinese Images Based on Convolutional Neural Network

下载PDF

导出

摘要竖排版繁体中文图像文本化问题可以看作是古籍图像中文字的定位和识别问题,但目前主流的OCR技术对古籍文献中竖排版繁体中文的识别精度不高。为了解决此问题,本文将深度学习应用于文字识别和定位中。首先基于SSD模型,运用目标检测算法从古籍文献图像中定位文字;然后构建了Inception-Resnet卷积神经网络进行文字识别。测试表明,在同样数据集的条件下,针对不同版式、大小和字体的古籍文献图像,与其他经典神经网络模型相比,本文模型的性能和综合适用性更好。 The problem of textualization of vertical layout traditional Chinese images can be regarded as a problem of positioning and recognition of characters in images of ancient books,but the current mainstream OCR technology does not have high recognition accuracy forit. To solve this problem,this paper applied deep learning to text recognition and localization. Firstly,based on the SSD model,the target detection algorithm was used to locate the text from the ancient book document images;then the Inception-Resnet convolutional neural network was constructed for text recognition. The test showed that,under the same data set,the performance and comprehensive applicability of the model in this paper were better than other classical neural network models for ancient book images of different layouts,sizes and fonts.

作者李华魏志浩刘俊李万清张林达袁友伟何宏 LI Hua;WEI Zhihao;LIU Jun;LI Wanqing;ZHANG Linda;YUAN Youwei;HE Hong(Hangzhou Dianzi University,Hangzhou 310018,China)

机构地区杭州电子科技大学

出处《智能物联技术》 2021年第5期24-30,共7页 Technology of Io T& AI

基金浙江省基础公益研究计划项目资助(No.LGG18F020014) 浙江省高等教育学会研究课题(项目编号KT2020393)。

关键词卷积神经网络文字识别文字定位图像处理 convolutional neural network character recognition text localization image processing

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1孙华,张航.汉字识别方法综述[J].计算机工程,2010,36(20):194-197. 被引量：28

二级参考文献15

1Dai Ruwei,Liu Chenglin,Xiao Baihua.Chinese Character Recognition:History,Status and Prospects[J].Frontiers of Computer Science in China,2007,1(2):126-136.
2Shin J,Sakoe H.Optimal Stroke-correspondence Search Method for On-line Character Recognition[J].Pattern Recognition Letters,2002,23(6):601-608.
3Lee Seong-whan,Kim Chang-hun,Ma Hong,et al.Multiresolution Recognition of Unconstrained Handwritten Numerals with Wavelet Transform and Multilayer Cluster Neural Network[J].Pattern Recognition,1996,29(12):1953-1961.
4Hu Jiangying,Lim Sok-gek,Michael K.Writer Independent On-line Handwriting Recognition Using an HMM Approach[J].Pattern Recognition,2000,33(1):133-147.
5Su Tonghua,Zhang Tianwen,Qiu Zhaowen,et al.Hmm-based System for Transcribing Chinese Hand Writing[C] //Proc.of the 6th International Conference on Machine Learning and Cybernetics.Hong Kong,China:[s.n.] ,2007.
6Li Yanfang,Yang Huamin,Xu Jing.Chinese Character Recognition Method Based on Multi-features and Parallel Neural Network Computation[C] //Proc.of the 3rd InternationalConference on Advanced Intelligent Computing Theories and Applications.Qingdao,China:[s.n.] ,2007.
7Fu Chang.Techniques for Solving the Large-scale Classification Problem in Chinese Handwriting Recognition[C] //Proc.of the 2006 Conference on Arabic and Chinese Handwriting Recognition.College Park,USA:Springer-Verlag,2008.
8Bahlmann C,Haasdonk B,Burkhardt H,et al.On-line Handwriting Recognition with Support Vector Machines--A Kernel ApproachC] //Proc.of the 8th International Workshop on Frontiers in Handwriting Recognition.[S.l.] :IEEE Computer Society,2002.
9Qiang Fu,Li Tongzhi,Liu Changsong.An Effective and Practical Classifier Fusion Strategy for Improving Hand Written Character Recognition[C] //Proc.of the 9th International Conference on Document Analysis and Recognition.Curitiba,Parana,Brazil:IEEE Computer Society,2007.
10何志国,曹玉东.脱机手写体汉字识别综述[J].计算机工程,2008,34(15):201-204. 被引量：9

共引文献27

1刘梦迪,梁循.基于偏旁部首知识表示学习的汉字字形相似度计算方法[J].中文信息学报,2021,35(12):47-59. 被引量：6
2马靓,王志明.身份证号码识别系统的研究与实现[J].计算机工程,2011,37(S1):198-200. 被引量：1
3张立印,陈根方,杜旋,胡海鸥,赵琼迪.中文简谱的图像分割与歌词提取研究[J].计算机工程,2012,38(9):217-219.
4尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
5刘齐跃,边立娴,赵永凯.关于文字识别中两种倾斜校正算法的比较研究[J].中国科技博览,2013(15):211-212.
6王东,熊世桓.一种新颖的汉字字形相似度计算方法[J].计算机应用研究,2013,30(8):2395-2397. 被引量：5
7闫国利,迟慧,崔磊,夏萤,许晓露,白学军.汉字笔画像素数省略对中文句子阅读影响的眼动研究[J].心理科学,2014,37(3):521-527. 被引量：3
8王民,曾宝莹,要趁红,田湘源,孙向南.中国书法的特征提取及识别[J].信息通信,2015,28(7):19-20. 被引量：4
9刘颖滨,孙燕南,荀恩东.一种基于三维空间信息的字形匹配方法[J].北京大学学报（自然科学版）,2016,52(1):81-88. 被引量：1
10苗红霞,张龙,徐文杰,齐本胜.一种身份证图像字符分割的改进方法[J].微处理机,2016,37(3):51-55. 被引量：2

同被引文献26

1刘书华,李平立,袁梦尤,张宏志.一种亚像素级栅格文字粗细调整方法[J].中国印刷与包装研究,2010,2(S1):137-137. 被引量：1
2章夏芬,庄越挺,鲁伟明,吴飞.根据形状相似性的书法内容检索[J].计算机辅助设计与图形学学报,2005,17(11):2565-2569. 被引量：13
3唐英敏,张艳霞,吕肖庆.基于汉字构形的TrueType字库压缩方法[J].微电子学与计算机,2007,24(6):52-55. 被引量：11
4陈颉,朱福喜.根据骨架结构相似性的书法内容分层检索[J].小型微型计算机系统,2010,31(1):138-142. 被引量：5
5罗毅,李莺,王锴,李斌.基于Gabor变换的中文字符特征提取方法研究[J].电子设计工程,2012,20(15):146-147. 被引量：2
6张麦库,林民,黄含泉.基于统计的笔段网格字形笔画曲线美化方法[J].计算机技术与发展,2012,22(10):83-86. 被引量：1
7于东,吕晓晨,荀恩东.基于笔触特征三角形的手写汉字书法效果美化方法[J].计算机科学,2013,40(2):308-311. 被引量：1
8酆格斐,顾绍通,杨亦鸣.基于数学形态学的甲骨拓片字形特征提取方法[J].中文信息学报,2013,27(2):79-85. 被引量：9
9戴庆辉,张俊松.考虑笔画和拓扑结构的字形美化方法[J].中国科学：信息科学,2017,47(4):468-481. 被引量：3
10刘成东,连宙辉,唐英敏,肖建国.基于部件拼接的高质量中文字库自动生成系统[J].北京大学学报（自然科学版）,2018,54(1):35-41. 被引量：10

引证文献1

1周雅琴,武志鹏.基于机器学习技术的汉字字体设计方法综述研究[J].艺术与设计（理论版）,2024(9):31-34.

1庞发虎,吴雪姣,孔雪菲,曾宠,王晓宇,陈兆进,姚伦广,韩辉.重金属钝化剂阻控生菜Cd吸收的功能稳定性和适用性[J].环境科学,2021,42(5):2502-2511. 被引量：15
2何赢,杜平,石静,秦晓鹏,徐刚,吴明红.土壤重金属钝化效果评估——基于大田试验的研究[J].农业环境科学学报,2020,39(8):1734-1740. 被引量：13
3王佳,黄德启,郭鑫,杨路明.基于改进Inception-ResNet-v2的城市交通路面状态识别算法[J].科学技术与工程,2022,22(6):2524-2530.
4王波,黄冕,刘利军,黄青松,单文琦.基于多层聚焦Inception-V3卷积网络的细粒度图像分类[J].电子学报,2022,50(1):72-78. 被引量：8
5孙海蓉,李号.基于深度迁移学习的小样本光伏热斑识别方法[J].太阳能学报,2022,43(1):406-411. 被引量：17
6冯炎,陈汝真.基于离线参数调整的古籍图像二值化算法[J].计算机工程与设计,2022,43(3):794-799. 被引量：1
7李飞,王超,浦东,陈瑞,张智坚.基于卷积注意力的输电线路防震锤检测识别[J].计算机测量与控制,2022,30(3):48-53. 被引量：6
8冯炎.基于局部对比度和相位保持降噪的古籍图像二值化算法[J].计算机应用与软件,2022,39(2):162-166. 被引量：4
9李林,柏召,刁磊,唐詹,郭旭超.基于K-SSD-F的东亚飞蝗视频检测与计数方法[J].农业机械学报,2021,52(S01):261-267. 被引量：5
10王金金,曾上游,李文惠,张介滨.基于扩张卷积的注意力机制视频描述模型[J].电子测量技术,2021,44(23):99-104. 被引量：5

智能物联技术

2021年第5期

浏览历史

内容加载中请稍等...

基于卷积神经网络的竖排版繁体中文图像文本化研究被引量：1

参考文献1

二级参考文献15

共引文献27

同被引文献26

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络的竖排版繁体中文图像文本化研究 被引量：1

参考文献1

二级参考文献15

共引文献27

同被引文献26

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络的竖排版繁体中文图像文本化研究被引量：1