基于双注意力YOLOv5的场景藏文检测

YOLOv5 dual-attention based scene Tibetan text detection

下载PDF

导出

摘要为有效提高场景藏文文本检测性能,提出一种基于双注意力YOLOv5的场景藏文检测框架,简称为YOLOv5 Dual-attention。通过在YOLOv5模型上下采样层之间采用背景抑制模块,聚合多尺度的初始特征,抑制卷积特征中的背景干扰;在YOLOv5的颈部和检测头中间嵌入卷积注意力提高卷积提取特征的能力,使网络具有精确推断文本的能力。实验结果表明,在二分类MSTD500测试集上,改进后的模型YOLOv5x Dual-attention+α-IoU对单类藏文场景文本检测的F1达到了84.65%,比目前最好的同类检测结果高出12.65个百分点,有效降低了文本目标漏检和误检可能性。 To effectively improve the performance of scene Tibetan text detection,a scene Tibetan detection framework based on dual attention YOLOv5 was proposed,referred to as YOLOv5 Dual-attention.By adopting the background suppression module between the upper and lower sampling layers of the YOLOv5 model,the initial features of multiple scales were effectively aggregated,and the background interference in the convolutional features was effectively suppressed.Convolutional attention was embedded between the neck and detection head of YOLOv5 to improve the ability of convolution feature extraction,so that the network accurately inferred text.Experimental results show that on the dichotomous MSTD500 test set,the improved model YOLOv5x Dual-attention+α-IoU achieves an F1 of 84.65%for text detection in a single Tibetan scene,which is 12.65 percentage points higher than that of the current best similar detection results.The possibility of missing and false detection of text targets is effectively reduced.

作者才让当知黄鹤鸣范玉涛樊永红 CaiRangDangZhi;HUANG He-ming;FAN Yu-tao;FAN Yong-hong(School of Computer Science and Technology,Qinghai Normal University,Xining 810008,China;State Key Laboratory of Tibetan Intelligent Information Processing and Application,Qinghai Normal University,Xining 810008,China;Key Laboratory of Tibetan Information Processing of Ministry of Education,Qinghai Normal University,Xining 810008,China)

机构地区青海师范大学计算机科学与技术学院青海师范大学省部共建藏语智能信息处理及应用国家重点实验室青海师范大学藏文信息处理教育部重点实验室

出处《计算机工程与设计》北大核心 2023年第11期3411-3419,共9页 Computer Engineering and Design

基金国家自然科学基金项目(62066039、62166034) 青海省自然科学基金项目(2022-ZJ-925)。

关键词藏文检测场景文本检测通道注意力空间注意力双注意力损失函数小目标文本检测 Tibetan text detection scene text detection channel attention spatial attention dual-attention loss function small target text detection

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1贡去卓么,才让加,三知加.基于语义分割的藏文古籍文档文本区域检测[J].计算机仿真,2022,39(5):448-454. 被引量：2
2公保杰,安见才让.印刷体藏文识别中字符切分方法的研究[J].计算机时代,2019,0(9):24-26. 被引量：3
3洪松,高定国,三排才让,取次.自然场景下乌金体藏文的检测与识别[J].计算机系统应用,2021,30(12):332-338. 被引量：8

二级参考文献14

1王华,丁晓青.一种多字体印刷藏文字符的归一化方法[J].计算机应用研究,2004,21(6):41-43. 被引量：10
2吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报（自然科学版）,2006,22(1):32-37. 被引量：7
3王维兰,陈万军.基于笔划特征和MCLRNN模型的联机手写藏文识别[J].计算机工程与应用,2008,44(14):91-93. 被引量：6
4孙淑娟,房培玉.基于蚁群算法的现代藏文字符轮廓提取技术研究[J].微计算机应用,2008,29(5):38-41. 被引量：3
5刘真真,王茂基,李永忠,沈晔华.基于分形矩的印刷体藏文特征提取方法[J].模式识别与人工智能,2008,21(5):654-657. 被引量：2
6普次仁.多种印刷字体藏文字符的特征提取方法研究[J].西藏大学学报（社会科学版）,2008,23(2):25-28. 被引量：10
7梁弼,王维兰,钱建军.基于HMM的分类器在联机手写藏文识别中的应用[J].微电子学与计算机,2009,26(4):98-101. 被引量：3
8赵栋材.基于BP网络的木刻藏文经书文字识别研究[J].微处理机,2012,33(5):35-38. 被引量：5
9党红恩.藏文字形轮廓特征优化识别提取仿真研究[J].计算机仿真,2016,33(11):341-344. 被引量：6
10段立娟,张西群,马龙龙,吴健.Text extraction method for historical Tibetan document images based on block projections[J].Optoelectronics Letters,2017,13(6):457-461. 被引量：3

共引文献10

1仁青东主,尼玛扎西.基于深度学习的自然场景藏文识别研究[J].高原科学研究,2019,3(4):96-103. 被引量：9
2杨志婥琪,周兰江,周蕾越.融合文本特征的老挝语文字识别方法研究[J].小型微型计算机系统,2022,43(4):723-730.
3龙从军,安波.中国少数民族语言文字信息处理的进展[J].暨南学报（哲学社会科学版）,2022,44(9):12-23. 被引量：8
4侯闫,高定国,高红梅.乌金印刷多字体藏文的文本检测与识别[J].计算机工程与设计,2023,44(4):1058-1065. 被引量：3
5童攀,龙炳鑫,拥措.基于深度学习的藏文乌梅体场景文字识别[J].信息与电脑,2023,35(4):91-93.
6拥措,龙炳鑫,拉毛杰,仁青东主,尼玛扎西.面向社交媒体的藏文图文多字体检测与识别研究[J].高原科学研究,2023,7(4):76-85.
7索朗曲珍,高定国,李婧怡,白玛旺久.视频中藏文文本的检测方法研究[J].电脑知识与技术,2023,19(35):1-5.
8白玛旺久,格桑多吉,扎西多吉,杨欣.基于多粒度表征藏文古籍文档版面分析方法研究[J].电脑知识与技术,2023,19(36):1-3.
9武帅,杨秀璋.水书信息化建设研究进展与挑战[J].文献与数据学报,2024,6(2):106-119.
10闫林,王磊,艾孜麦提·艾尼瓦尔,杨雅婷,李晓.基于多尺度风格自适应的手写维文识别模型[J].计算机工程与设计,2024,45(9):2749-2756.

1范强,施雪娇.昆明市云才文翰中学田径队短跑运动员注意力集中情况分析[J].运动-休闲（大众体育）,2023(11):190-192.
2卢新海,陶向前,匡兵,唐一峰,王梦成.环保考核、政府环境注意力与城市土地绿色利用效率[J].中国土地科学,2023,37(8):104-112. 被引量：13
3张友鹏,魏智健,杨妮,张迪.基于KPCA-SVM的S700K转辙机故障诊断方法[J].安全与环境学报,2023,23(9):3089-3097. 被引量：4

计算机工程与设计

2023年第11期

浏览历史

内容加载中请稍等...

基于双注意力YOLOv5的场景藏文检测

参考文献3

二级参考文献14

共引文献10

相关作者

相关机构

相关主题

浏览历史