期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
Embedded System Based Raspberry Pi 4 for Text Detection and Recognition
1
作者 Turki M.Alanazi 《Intelligent Automation & Soft Computing》 SCIE 2023年第6期3343-3354,共12页
Detecting and recognizing text from natural scene images presents a challenge because the image quality depends on the conditions in which the image is captured,such as viewing angles,blurring,sensor noise,etc.However... Detecting and recognizing text from natural scene images presents a challenge because the image quality depends on the conditions in which the image is captured,such as viewing angles,blurring,sensor noise,etc.However,in this paper,a prototype for text detection and recognition from natural scene images is proposed.This prototype is based on the Raspberry Pi 4 and the Universal Serial Bus(USB)camera and embedded our text detection and recognition model,which was developed using the Python language.Our model is based on the deep learning text detector model through the Efficient and Accurate Scene Text Detec-tor(EAST)model for text localization and detection and the Tesseract-OCR,which is used as an Optical Character Recognition(OCR)engine for text recog-nition.Our prototype is controlled by the Virtual Network Computing(VNC)tool through a computer via a wireless connection.The experiment results show that the recognition rate for the captured image through the camera by our prototype can reach 99.75%with low computational complexity.Furthermore,our proto-type is more performant than the Tesseract software in terms of the recognition rate.Besides,it provides the same performance in terms of the recognition rate with a huge decrease in the execution time by an average of 89%compared to the EasyOCR software on the Raspberry Pi 4 board. 展开更多
关键词 text detection text recognition OCR engine natural scene images Raspberry Pi USB camera
下载PDF
Digit Recognition in Natural Scene Texts
2
作者 Shih-Wei Sun 《Journal of Electronic Science and Technology》 CAS CSCD 2017年第2期199-206,共8页
Digit recognition from a natural scene text in video surveillance/broadcasting applications is a challenging research task due to blurred, font variations, twisted, and non-uniform color distribution issues with a dig... Digit recognition from a natural scene text in video surveillance/broadcasting applications is a challenging research task due to blurred, font variations, twisted, and non-uniform color distribution issues with a digit in a natural scene to be recognized. In this paper, to solve the digit number recognition problem, a principal-axis based topology contour descriptor with support vector machine (SVM) classification is proposed. The contributions of this paper include: a) a local descriptor with SVM classification for digit recognition, b) higher accuracy than the state-of-the art methods, and c) low computational power (0.03 second/digit recognition), which make this method adoptable to real-time applications. 展开更多
关键词 Index Terms--Digit recognition scene text sports video video surveillance.
下载PDF
CNN and Fuzzy Rules Based Text Detection and Recognition from Natural Scenes
3
作者 T.Mithila R.Arunprakash A.Ramachandran 《Computer Systems Science & Engineering》 SCIE EI 2022年第9期1165-1179,共15页
In today’s real world, an important research part in image processing isscene text detection and recognition. Scene text can be in different languages,fonts, sizes, colours, orientations and structures. Moreover, the... In today’s real world, an important research part in image processing isscene text detection and recognition. Scene text can be in different languages,fonts, sizes, colours, orientations and structures. Moreover, the aspect ratios andlayouts of a scene text may differ significantly. All these variations appear assignificant challenges for the detection and recognition algorithms that are consideredfor the text in natural scenes. In this paper, a new intelligent text detection andrecognition method for detectingthe text from natural scenes and forrecognizingthe text by applying the newly proposed Conditional Random Field-based fuzzyrules incorporated Convolutional Neural Network (CR-CNN) has been proposed.Moreover, we have recommended a new text detection method for detecting theexact text from the input natural scene images. For enhancing the presentation ofthe edge detection process, image pre-processing activities such as edge detectionand color modeling have beenapplied in this work. In addition, we have generatednew fuzzy rules for making effective decisions on the processes of text detectionand recognition. The experiments have been directedusing the standard benchmark datasets such as the ICDAR 2003, the ICDAR 2011, the ICDAR2005 and the SVT and have achieved better detection accuracy intext detectionand recognition. By using these three datasets, five different experiments havebeen conducted for evaluating the proposed model. And also, we have comparedthe proposed system with the other classifiers such as the SVM, the MLP and theCNN. In these comparisons, the proposed model has achieved better classificationaccuracywhen compared with the other existing works. 展开更多
关键词 CRF RULES text detection text recognition natural scene images CR-CNN
下载PDF
An Attention-Based Recognizer for Scene Text 被引量:1
4
作者 Yugang Li Haibo Sun 《Journal on Artificial Intelligence》 2020年第2期103-112,共10页
Scene text recognition(STR)is the task of recognizing character sequences in natural scenes.Although STR method has been greatly developed,the existing methods still can't recognize any shape of text,such as very ... Scene text recognition(STR)is the task of recognizing character sequences in natural scenes.Although STR method has been greatly developed,the existing methods still can't recognize any shape of text,such as very rich curve text or rotating text in daily life,irregular scene text has complex layout in two-dimensional space,which is used to recognize scene text in the past Recently,some recognizers correct irregular text to regular text image with approximate 1D layout,or convert 2D image feature mapping to one-dimensional feature sequence.Although these methods have achieved good performance,their robustness and accuracy are limited due to the loss of spatial information in the process of two-dimensional to one-dimensional transformation.In this paper,we proposes a framework to directly convert the irregular text of two-dimensional layout into character sequence by using the relationship attention module to capture the correlation of feature mapping Through a large number of experiments on multiple common benchmarks,our method can effectively identify regular and irregular scene text,and is superior to the previous methods in accuracy. 展开更多
关键词 scene text recognition irregular text ATTENTION
下载PDF
深度学习的自然场景文本识别方法综述 被引量:1
5
作者 曾凡智 冯文婕 周燕 《计算机科学与探索》 CSCD 北大核心 2024年第5期1160-1181,共22页
自然场景文本识别在学术研究和实际应用中具有重要价值,已经成为计算机视觉领域的研究热点之一。然而,识别过程存在文本风格多样、背景环境复杂等挑战,导致识别效率和准确率不佳。传统的基于手工设计特征文本识别方法由于其有限的表示能... 自然场景文本识别在学术研究和实际应用中具有重要价值,已经成为计算机视觉领域的研究热点之一。然而,识别过程存在文本风格多样、背景环境复杂等挑战,导致识别效率和准确率不佳。传统的基于手工设计特征文本识别方法由于其有限的表示能力,不足以有效地应对复杂的自然场景文本识别任务。近年来,采用深度学习方法在自然场景文本识别中取得了重大进展,系统地梳理了近年来相关研究工作。首先,根据是否需要对单字符进行分割,将自然场景文本识别方法分为基于分割与无需分割的方法,再根据其技术实现特点将无需分割的方法进行细分,并对各类最具有代表性的方法工作原理进行了阐述。然后,介绍了当前常用数据集以及评价指标,并在数据集上对各类方法进行了性能对比,从多个方面讨论了各类方法的优势与局限性。最后,指出基于深度学习的自然场景文本识别研究存在的不足和难点,对其未来的发展趋势进行了展望。 展开更多
关键词 文本识别 深度学习 自然场景
下载PDF
消除背景噪声增强字符形状特征的场景文字识别
6
作者 唐善成 梁少君 +3 位作者 鲁彪 张莹 金子成 逯建辉 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第6期875-883,共9页
为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特... 为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特征,增强字符形状特征;特征提取模块采用EfficientNet-B3作为主干网络提取特征图;基元表征学习模块学习特征图得到视觉文字表征,通过对视觉文字表征解码得到识别结果.实验结果表明,与经典模型相比,所提模型在合成场景数据集上识别准确率提高9.76个百分点,在公开数据集IIIT5K,ICDAR-2003,ICDAR-2015,CUTE80上识别准确率平均提高2.91个百分点;该模型可有效地消除背景噪声和字符自身噪声,提高识别性能. 展开更多
关键词 场景文字识别 空间注意力机制 背景噪声 字符自身噪声
下载PDF
基于深度学习的场景文字识别技术研究
7
作者 陈志宇 司占军 朱新雨 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第3期237-243,291,共8页
基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss... 基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss作为损失函数来优化目标检测框,将卷积块注意力模块(Convolutional Block Attention Module,CBAM)嵌入到卷积层中,使网络在特定位置和通道上更加关注目标,抑制其余复杂背景信息以此来提高模型的文字检测能力;分析中文的文字特征,对CRNN的特征提取网络改进优化,提高了原有模型对中文、中英文混合识别的准确性。实验结果表明,通过对文字检测与识别模型和算法的改进优化,大大提高了场景文字识别技术的准确性和鲁棒性。 展开更多
关键词 深度学习 场景文字识别技术 图像处理 目标检测 文字识别
下载PDF
基于改进MTSv2的场景文本检测和识别算法研究
8
作者 王艳媛 茅正冲 杨雨涵 《计算机测量与控制》 2024年第9期256-261,共6页
在自然场景图像中,丰富的文本内容对于全面理解场景非常重要。针对自然场景文本图像存在背景复杂、文本粘连、文本多角度等问题,提出一种基于改进MTSv2的文本检测和识别算法;检测算法以MTSv2为基础网络,采用CBAM注意力机制增大特征图中... 在自然场景图像中,丰富的文本内容对于全面理解场景非常重要。针对自然场景文本图像存在背景复杂、文本粘连、文本多角度等问题,提出一种基于改进MTSv2的文本检测和识别算法;检测算法以MTSv2为基础网络,采用CBAM注意力机制增大特征图中的小型文本的权重,更好捕捉图像中的关键特征;融合CE-FPN结构,减轻多尺度融合产生的特征混叠问题;引入focal loss函数,减少正负样本分布不均衡对识别准确率的影响,使网络更加关注难以分类的样本,改善模型的泛化能力;通过多个文本数据集进行训练,并在ICDAR2015数据集上进行验证,改进后模型对场景文本检测和识别的准确率达到了89.3%,召回率达到了87.6%,F_(1)值达到了88.5%,相比于原模型都有一定程度的提高。 展开更多
关键词 场景文本 文本检测 文本识别 CBAM CE-FPN 注意力机制
下载PDF
基于多头注意力机制的文本检测识别方法
9
作者 龚钰 张云华 《软件工程》 2024年第11期57-62,共6页
针对自然场景中的文本图像存在信息、背景复杂,以及基于CNN(Convolutional Neural Networks)的自然场景文本图像检测鲁棒性低的问题,提出一种改进的Faster RCNN(Region based Convolutional Neural Networks)模型和多头注意力机制的字... 针对自然场景中的文本图像存在信息、背景复杂,以及基于CNN(Convolutional Neural Networks)的自然场景文本图像检测鲁棒性低的问题,提出一种改进的Faster RCNN(Region based Convolutional Neural Networks)模型和多头注意力机制的字符关联模型文本检测识别方法。该方法首先使用改进的Faster RCNN模型检测出图像中字符的特征,其次通过字符关联模块和多头注意力模块获取字符间的语义关联信息,最后由字符输出模块的生成识别结果。实验结果表明,该方法具有良好的鲁棒性,能够有效利用字符间的关联信息和上下文语义信息解码字符序列,尤其是在不规则文本的识别中表现优异。 展开更多
关键词 场景文本识别 改进的Faster RCNN 鲁棒性 注意力机制
下载PDF
基于模糊模式感知模块的场景文本图像超分辨率算法
10
作者 张密 余海洋 《计算机系统应用》 2024年第4期103-112,共10页
现有的场景文本识别器容易受到模糊文本图像的困扰,导致在实际应用中性能较差.因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器,以提高输入图像的质量.然而,用于场景文本图像超分辨率任务的真实世界... 现有的场景文本识别器容易受到模糊文本图像的困扰,导致在实际应用中性能较差.因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器,以提高输入图像的质量.然而,用于场景文本图像超分辨率任务的真实世界训练样本很难收集;此外,现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像,而忽略了从HR到LR图像的模糊模式.本文提出了模糊模式感知模块,该模块从现有的真实世界HR-LR文本图像对中学习模糊模式,并将其转移到其他HR图像中,以生成具有不同退化程度的LR图像.本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对,以弥补训练数据的不足,从而显著提高性能.实验结果表明,当配备提出的模糊模式感知模块时,场景文本图像超分辨率方法的性能可以进一步提高,例如,SOTA方法TG在使用CRNN文本识别器进行评估时,识别准确率提高了5.8%. 展开更多
关键词 场景文本图像超分辨率 场景文本识别 图像模糊模式 条件生成对抗网络 深度学习
下载PDF
场景图像弯曲文本检测与识别
11
作者 刘航源 《计算机与数字工程》 2024年第6期1848-1853,共6页
随着深度学习技术的发展,场景文本检测与识别在近几年取得了巨大的进步,场景文本检测与识别的实现方式也越来越具有多样性。然而,场景文本的表示方式仍然以矩形和旋转矩形居多,该类文本表示方式难以精准表示弯曲的文本实例。为了解决弯... 随着深度学习技术的发展,场景文本检测与识别在近几年取得了巨大的进步,场景文本检测与识别的实现方式也越来越具有多样性。然而,场景文本的表示方式仍然以矩形和旋转矩形居多,该类文本表示方式难以精准表示弯曲的文本实例。为了解决弯曲文本的表示问题,论文提出了一种参数化的弯曲文本表示法,并且基于参数化表示法设计了弯曲文本纠正算法,实现了弯曲文本的形态纠正,降低了识别的难度。通过引入该方法,实现了功能完善的场景文本检测与识别系统。实验结果表明,此方法可以有效完成场景文本的检测与识别任务。 展开更多
关键词 场景文本检测 文本识别 弯曲文本 形态纠正
下载PDF
无人机输电线路巡检照片号牌文字识别方法
12
作者 李有春 汤春俊 +3 位作者 梁加凯 林龙旭 徐敏 谢敏 《无线电工程》 2024年第6期1560-1568,共9页
针对无人机巡检拍摄的高像素电力杆塔照片中杆塔号牌文字识别成功率低的问题,提出了一种改进连接文本区域网络(Connectionist Text Proposal Network,CTPN)算法。利用二维重叠滑动切割方法对输入图像进行切割,将主干网络Vgg16改为Mobile... 针对无人机巡检拍摄的高像素电力杆塔照片中杆塔号牌文字识别成功率低的问题,提出了一种改进连接文本区域网络(Connectionist Text Proposal Network,CTPN)算法。利用二维重叠滑动切割方法对输入图像进行切割,将主干网络Vgg16改为MobilenetV2对切割后图片进行卷积处理,同时在其中加入深度适配网络(Deep Adaptation Network,DAN)的注意力机制得到特征图;将卷积得到的特征图转化成序列输入至双向长短期记忆神经(Bi-directional Long Short-Term Memory,Bi-LSTM)网络学习序列特征,并通过全连接层得到建议框;加入重映射方法将建议框映射回原图,筛选整合映射到原图的建议框后,得到号牌文本框。将得到的文本框内的图像截取输入到卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)进行文字识别。实验结果表明,当切割框为456 pixel×256 pixel、横向重叠率为9%、纵向重叠率为8%时,识别精度可以达到87%。 展开更多
关键词 深度学习 高像素 场景文字识别 小目标
下载PDF
基于深度学习的自然场景文本检测与识别研究
13
作者 张蝶依 《移动信息》 2024年第6期245-247,共3页
自然场景文本检测与识别技术主要应用于自动驾驶、车牌识别、智能机器人等多个场景,实用价值高,研究前景广阔。然而,自然场景的背景复杂,增加了区分文本的难度,因此相比传统的用于印刷文本检测及识别的OCR技术,自然场景的文本检测与识... 自然场景文本检测与识别技术主要应用于自动驾驶、车牌识别、智能机器人等多个场景,实用价值高,研究前景广阔。然而,自然场景的背景复杂,增加了区分文本的难度,因此相比传统的用于印刷文本检测及识别的OCR技术,自然场景的文本检测与识别难度更高。文中提出了一种基于深度学习的自然场景文本检测与识别模型,其利用图像分割技术构建自然场景文本检测模型,并阐述了模型结构及组件。此外,还利用了压缩与激励神经网络技术来构建自然场景文本识别模型。 展开更多
关键词 深度学习 自然场景 文本检测与识别 图像分割
下载PDF
自然场景文本检测与端到端识别:深度学习方法 被引量:8
14
作者 周燕 韦勤彬 +4 位作者 廖俊玮 曾凡智 冯文婕 刘翔宇 周月霞 《计算机科学与探索》 CSCD 北大核心 2023年第3期577-594,共18页
自然场景图像中丰富的文本内容对场景理解有着重要意义,但自然场景文本往往具有极端横纵比、字体风格多变、背景及形状复杂等特点,而传统的文本检测与端到端识别方法存在着模型设计复杂、效率低、适用性不强且耗费成本高等缺点。随着深... 自然场景图像中丰富的文本内容对场景理解有着重要意义,但自然场景文本往往具有极端横纵比、字体风格多变、背景及形状复杂等特点,而传统的文本检测与端到端识别方法存在着模型设计复杂、效率低、适用性不强且耗费成本高等缺点。随着深度学习技术在图像领域的迅速发展,自然场景文本检测与端到端识别方法取得了突破性的进展,其性能和效率得到了显著提高。针对自然场景文本检测与端到端识别方法,梳理了近年来相关的研究工作。首先,根据文本框生成方式的不同,主要从回归候选框和像素分割两个角度来划分自然场景文本检测方法的基本思想,并对各类代表性的方法进行了详细叙述;其次,从端到端识别速度与解耦检测和识别任务的角度对端到端识别方法的技术发展路线进行了归纳总结;然后,介绍了常用的公开文本数据集,并在公开的文本数据集上对各类方法进行了性能对比;最后,对自然场景文本检测与端到端识别的主流研究方向进行了讨论,并阐述了其面临的挑战和未来的发展趋势。 展开更多
关键词 深度学习 自然场景 文本检测 端到端识别
下载PDF
一种用于自然场景文本识别的多路并行位置关联网络 被引量:1
15
作者 陈敏 叶东毅 陈羽中 《小型微型计算机系统》 CSCD 北大核心 2023年第4期699-705,共7页
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出... 自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network,MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能. 展开更多
关键词 深度学习 场景文本识别 注意力机制 端到端
下载PDF
多网络和多头注意力融合的场景文本识别算法 被引量:1
16
作者 贾小云 翁佳顺 刘颜荦 《计算机时代》 2023年第8期46-51,共6页
针对场景文本识别算法忽略整个文本的全局信息内容,提出多网络和多头注意力融合的自然场景文本识别算法。首先使用多网络融合结构,设计多种残差模块在视觉特征中捕获上下文特征和语义特征。其次在字符预测过程中提出多头注意力机制编码... 针对场景文本识别算法忽略整个文本的全局信息内容,提出多网络和多头注意力融合的自然场景文本识别算法。首先使用多网络融合结构,设计多种残差模块在视觉特征中捕获上下文特征和语义特征。其次在字符预测过程中提出多头注意力机制编码器,将位置信息、视觉特征和分类信息拼接成新的特征空间并重新加权。实验结果表明该模型能更好的利用位置特征,全局语义特征和上下文特征更准确地识别到文本内容,提高了模型的准确率。 展开更多
关键词 场景文本识别 多网络融合 多头注意力机制 特征提取
下载PDF
视觉注意与语义感知联合推理实现场景文本识别
17
作者 佟国香 董田荣 胡珩彰 《数据采集与处理》 CSCD 北大核心 2023年第3期665-675,共11页
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。... 场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。 展开更多
关键词 场景文本识别 不规则文本 视觉注意模块 语义感知模块 多模态
下载PDF
基于空间域和频率域特征融合的场景文本识别 被引量:3
18
作者 霍华骑 陆璐 《计算机科学》 CSCD 北大核心 2023年第S02期36-43,共8页
对于小样本语言无关场景的文本识别,现有的方法往往面临鲁棒性低和泛化能力差的问题。针对这一问题,一方面,在特征提取阶段,提出了基于空间域和频率域特征融合的双流网络结构,其包含一个提取空间域特征的深度残差卷积网络分支,以及提取... 对于小样本语言无关场景的文本识别,现有的方法往往面临鲁棒性低和泛化能力差的问题。针对这一问题,一方面,在特征提取阶段,提出了基于空间域和频率域特征融合的双流网络结构,其包含一个提取空间域特征的深度残差卷积网络分支,以及提取频率域特征的一维快速傅里叶变换和浅层神经网络分支,接着使用通道注意力机制融合这两种特征。另一方面,在序列建模阶段,针对语言无关场景的特点,提出一种多尺度一维卷积模块用来代替双向长短期记忆网络。然后结合现有的TPS矫正模块和CTC解码器搭建完整模型。训练过程中采用了迁移学习的方法,先在大型英文数据集上进行预训练,后在目标数据集上进行微调。在文中整理的两个小样本语言无关数据集上的实验结果表明,所提模型在准确率上优于现有的模型,验证了其在该场景下的具有较高的鲁棒性和泛化能力;此外,在语言相关场景的5个基准数据集上的相关实验(不用微调)表明,使用文中所述特征提取模块的方法优于对比的基线方法,证明了所提出的双流特征融合网络的有效性和通用性。 展开更多
关键词 深度学习 场景文本识别 双流网络 频率域分支 小样本
下载PDF
嵌入重评分机制的自然场景文本检测方法
19
作者 刘艳丽 王毅宏 +1 位作者 张恒 程晶晶 《计算机仿真》 北大核心 2023年第2期228-235,302,共9页
针对自然场景文本检测中存在大量假阳性问题,提出了嵌入重评分机制的自然场景文本检测方法。引入实例分割网络(Mask R-CNN)作为基本框架,实现对自然场景中多方向、不规则文本的检测;设计文本掩膜重评分机制,通过预测文本掩膜的质量,将... 针对自然场景文本检测中存在大量假阳性问题,提出了嵌入重评分机制的自然场景文本检测方法。引入实例分割网络(Mask R-CNN)作为基本框架,实现对自然场景中多方向、不规则文本的检测;设计文本掩膜重评分机制,通过预测文本掩膜的质量,将文本的语义类别信息与其对应的掩膜完整性信息相结合,重新评估文本掩膜的质量,精确了文本的候选区域;重新设计损失函数的作用范围。上述模型基于端到端训练,在ICDAR2013、ICDAR2015和Total-Text等数据集进行性能测试,结果表明,提出的方法有效的提高了字符分割的完整性,较之现有方法明显地提高了文本检测的准确率和召回率,更适合自然场景中的不规则文本的识别。 展开更多
关键词 文本检测 文本识别 自然场景 实例分割
下载PDF
基于改进DAN的自然场景下越南文字的识别
20
作者 王利兵 俸亚特 文益民 《数据采集与处理》 CSCD 北大核心 2023年第5期1058-1068,共11页
越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention net... 越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention network, DAN)的基础上,设计了视觉特征与序列特征融合模块(Visual feature and sequence feature fusion module, VSFM),分别利用双向门控循环单元(Bidirectional gated recurrent unit, Bi-GRU)在水平方向和竖直方向进行序列建模,进一步缓解注意力漂移,增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块(Enhanced decoupled text decoder module, ETDM),在解码器中分类时结合了更多的特征信息,可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。 展开更多
关键词 声调语言文字 越南语文字 变音符号 注意力漂移 场景文本识别
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部