期刊文献+
共找到261篇文章
< 1 2 14 >
每页显示 20 50 100
基于多尺度注意力特征融合的场景文本检测 被引量:1
1
作者 厍向阳 刘哲 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第1期198-206,共9页
针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networ... 针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networks,FPN)中,通过将多尺度注意力热图与底层特征通过横向连接相融合,使检测器的不同层级专注于特定尺度的目标,并利用相邻层注意力热图之间的关系实现了FPN结构中的纵向特征共享,避免了不同层之间梯度计算的不一致性问题。实验结果表明:在ICDAR2015数据集上,该方法的准确率、召回率和F值分别达到了88.3%、83.07%和85.61%,在CTW1500和Total-Text弯曲文本数据集上相较现有方法均有良好表现。 展开更多
关键词 场景文本检测 Mask R-CNN Swin Transformer 注意力机制 多尺度特征融合
下载PDF
改进FCENet的自然场景文本检测算法
2
作者 周燕 廖俊玮 +2 位作者 刘翔宇 周月霞 曾凡智 《计算机工程与应用》 CSCD 北大核心 2024年第3期228-236,共9页
针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模... 针对自然场景文本检测中由于背景复杂、尺度多变、形状弯曲等造成的检测难题,提出了一种改进FCENet(Fourier contour embedding network)的场景文本检测算法。该算法基于FCENet并引入了多尺度残差特征增强模块和多尺度注意力特征融合模块。多尺度残差特征增强模块作为骨干网络顶层的残差分支,增强了特征金字塔结构自上而下的高层语义信息流动,提高了文本像素分类能力,有效减少误检现象。多尺度注意力特征融合模块使不同语义和尺度的特征能够更好地融合,结合自底向上的特征融合网络,有效避免文本过度分割并提高了弯曲文本的检测能力。实验结果表明,该方法在弯曲文本数据集CTW1500和Total-Text上的综合指标F值分别达到了86.2%和86.5%,相比原算法FCENet分别提升了1.1和0.7个百分点。 展开更多
关键词 自然场景文本检测 特征融合 特征增强 注意力机制 FCENet
下载PDF
深度学习的自然场景文本识别方法综述 被引量:1
3
作者 曾凡智 冯文婕 周燕 《计算机科学与探索》 CSCD 北大核心 2024年第5期1160-1181,共22页
自然场景文本识别在学术研究和实际应用中具有重要价值,已经成为计算机视觉领域的研究热点之一。然而,识别过程存在文本风格多样、背景环境复杂等挑战,导致识别效率和准确率不佳。传统的基于手工设计特征文本识别方法由于其有限的表示能... 自然场景文本识别在学术研究和实际应用中具有重要价值,已经成为计算机视觉领域的研究热点之一。然而,识别过程存在文本风格多样、背景环境复杂等挑战,导致识别效率和准确率不佳。传统的基于手工设计特征文本识别方法由于其有限的表示能力,不足以有效地应对复杂的自然场景文本识别任务。近年来,采用深度学习方法在自然场景文本识别中取得了重大进展,系统地梳理了近年来相关研究工作。首先,根据是否需要对单字符进行分割,将自然场景文本识别方法分为基于分割与无需分割的方法,再根据其技术实现特点将无需分割的方法进行细分,并对各类最具有代表性的方法工作原理进行了阐述。然后,介绍了当前常用数据集以及评价指标,并在数据集上对各类方法进行了性能对比,从多个方面讨论了各类方法的优势与局限性。最后,指出基于深度学习的自然场景文本识别研究存在的不足和难点,对其未来的发展趋势进行了展望。 展开更多
关键词 文本识别 深度学习 自然场景
下载PDF
一种基于特征增强的场景文本检测算法
4
作者 高楠 张雷 +2 位作者 梁荣华 陈朋 付政 《计算机科学》 CSCD 北大核心 2024年第6期256-263,共8页
针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能... 针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。 展开更多
关键词 深度学习 场景文本检测 注意力机制 多尺度特征融合 空洞卷积
下载PDF
消除背景噪声增强字符形状特征的场景文字识别
5
作者 唐善成 梁少君 +3 位作者 鲁彪 张莹 金子成 逯建辉 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第6期875-883,共9页
为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特... 为了解决现有方法未有效地消除背景噪声和字符自身噪声干扰的问题,提出一种包含3个模块的消除背景噪声增强字符形状特征(EBEC)的文字识别模型.空间注意力机制增强的EBEC网络只关注字符区域特征,以消除背景噪声,迫使网络仅学习字符形状特征,增强字符形状特征;特征提取模块采用EfficientNet-B3作为主干网络提取特征图;基元表征学习模块学习特征图得到视觉文字表征,通过对视觉文字表征解码得到识别结果.实验结果表明,与经典模型相比,所提模型在合成场景数据集上识别准确率提高9.76个百分点,在公开数据集IIIT5K,ICDAR-2003,ICDAR-2015,CUTE80上识别准确率平均提高2.91个百分点;该模型可有效地消除背景噪声和字符自身噪声,提高识别性能. 展开更多
关键词 场景文字识别 空间注意力机制 背景噪声 字符自身噪声
下载PDF
基于关键视图的文本驱动3D场景编辑方法
6
作者 张冀 崔文帅 +2 位作者 张荣华 王文彬 李亚琦 《图学学报》 CSCD 北大核心 2024年第4期834-844,共11页
基于去噪扩散模型的零样本图像编辑方法取得了瞩目的成就,将之应用于3D场景编辑可实现零样本的文本驱动3D场景编辑。然而,其3D编辑效果容易受扩散模型的3D连续性与过度编辑等问题影响,产生错误的编辑结果。针对这些问题,提出了一种新的... 基于去噪扩散模型的零样本图像编辑方法取得了瞩目的成就,将之应用于3D场景编辑可实现零样本的文本驱动3D场景编辑。然而,其3D编辑效果容易受扩散模型的3D连续性与过度编辑等问题影响,产生错误的编辑结果。针对这些问题,提出了一种新的文本驱动3D编辑方法,该方法从数据端着手,提出了基于关键视图的数据迭代方法与基于像素点的异常数据掩码模块。关键视图数据可以引导一个3D区域的编辑以减少3D不一致数据的影响,而数据掩码模块则可以过滤掉2D输入数据中的异常点。使用该方法,可以实现生动的照片级文本驱动3D场景编辑效果。实验证明,相较于一些目前先进的文本驱动3D场景编辑方法,可以大大减少3D场景中错误的编辑,实现更加生动的、更具真实感的3D编辑效果。此外,使用该方法生成的编辑结果更具多样性、编辑效率也更高。 展开更多
关键词 扩散模型 文本驱动 3D场景编辑 关键视图 数据掩码
下载PDF
基于GAN的场景文本艺术风格转换
7
作者 刘冰 《计算机与数字工程》 2024年第5期1523-1528,共6页
图像风格转移是将风格样式迁移到源图像中的目标区域以创建艺术排版的任务,论文研究如何对场景文本图像中的文字区域进行风格转换,以实现自动对广告或海报中的文字进行风格转换,降低艺术创作的成本并提高艺术风格的多样性。由于场景文... 图像风格转移是将风格样式迁移到源图像中的目标区域以创建艺术排版的任务,论文研究如何对场景文本图像中的文字区域进行风格转换,以实现自动对广告或海报中的文字进行风格转换,降低艺术创作的成本并提高艺术风格的多样性。由于场景文本图像中不同因素之间存在复杂的相互作用,先前很少有在保留原始文字内容和背景的同时进行文本风格转换的工作。该文提出了一个三阶段的框架,这是首个直接在原图进行程度可控的风格转换的网络,将原本对单个二值化字符进行风格转换的方法扩展到场景文本图像上的文字,并涉及到了图像修复的相关知识。首先使用风格转换网络只对场景文本图像中的文本风格进行转换,后利用字符擦除网络擦除原始字符重建背景图像,最后融合部分利用生成的前景图像和擦除字符后的背景图像生成最终风格转换后的结果图像。论文通过大量实验证明了该方法的有效性。 展开更多
关键词 深度学习 生成对抗网络(GAN) 场景文本图像 图像风格迁移 字体风格转换 字符擦除
下载PDF
基于DBNet改进的检务场景文本检测算法研究
8
作者 于晓 林世基 《现代计算机》 2024年第6期26-31,72,共7页
针对检务场景文本检测中,现有的检测算法仍存在误检率和漏检率高等问题。通过改进现有的特征提取网络,引入高效通道注意力和空间注意力模块CBAM,同时改进可微二值化函数,并将改进后的网络应用到检务场景文本检测当中。改进后的算法在ICD... 针对检务场景文本检测中,现有的检测算法仍存在误检率和漏检率高等问题。通过改进现有的特征提取网络,引入高效通道注意力和空间注意力模块CBAM,同时改进可微二值化函数,并将改进后的网络应用到检务场景文本检测当中。改进后的算法在ICDAR 2015数据集上的准确率、召回率及F值相较于改进前分别提升了2.2、5.4及4.2个百分点,达到了89.2%和63.6%及74.3%。实验数据表明,改进DBNet文本检测算法在收敛速度和检测精度上都有明显的提升。 展开更多
关键词 文本检测 检务场景 可微二值化 深度学习 CBAM
下载PDF
基于生成对抗网络的维语场景文字修改网络
9
作者 付鸿林 张太红 +2 位作者 杨雅婷 艾孜麦提·艾瓦尼尔 马博 《计算机与现代化》 2024年第1期41-46,共6页
通过对维语的场景文字检测与识别研究发现,人工采集标注自然场景文字图像是耗时耗力的,因此人工合成的数据是作为训练数据的主要来源。为获得更加真实的数据,本文提出一种基于生成对抗网络的维语场景文字修改网络,利用高效的Transforme... 通过对维语的场景文字检测与识别研究发现,人工采集标注自然场景文字图像是耗时耗力的,因此人工合成的数据是作为训练数据的主要来源。为获得更加真实的数据,本文提出一种基于生成对抗网络的维语场景文字修改网络,利用高效的Transformer模块构建网络,充分提取图像全局与局部特征来完成维语场景文字图像修改,并添加微调模块,对最终结果进行微调。采用WGAN思想策略训练模型,可有效应对模型崩溃以及梯度爆炸等问题。通过在英文-英文,英文-维文的文字修改实验来验证模型的泛化能力和鲁棒性,无论在客观评价指标(SSIM、PSNR)还是视觉上均取得不错效果,并在真实场景数据集SVT以及ICDAR 2013上进行了验证。 展开更多
关键词 生成对抗网络 场景文字修改 维语场景文字图像 高效Transformer WGAN
下载PDF
多域字符距离感知的场景文本图像超分辨率重建
10
作者 黄俊炀 陈宏辉 +2 位作者 王嘉宝 陈平平 林志坚 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2262-2270,共9页
场景文本图像超分辨率(Scene Text Image Super-Resolution, STISR)旨在提高文本在低分辨率图像中的分辨率和可读性.但是在空间变形或低分辨率的文本图像中,由于缺乏文本区域细节,语义线索和视觉特征信息难以与字符位置匹配对齐,文本识... 场景文本图像超分辨率(Scene Text Image Super-Resolution, STISR)旨在提高文本在低分辨率图像中的分辨率和可读性.但是在空间变形或低分辨率的文本图像中,由于缺乏文本区域细节,语义线索和视觉特征信息难以与字符位置匹配对齐,文本识别效果不佳.针对该问题,本文提出多域字符距离感知的场景文本图像超高分辨率重建方法(Perceiving Multi-Domain Character distance super-resolution, PMDC),强化视觉语义特征,提高文本区域和纹理信息.首先,采用非对称卷积以及语义先验信息模块,提取文本图像的视觉和语义特征信息;其次,融合字符距离感知模块中的视觉和语义特征,得到增强位置编码感知字符间的间距变化和语义相似性;最后,结合引导线索和视觉特征对像素进行重组得到超分辨率文本图像.在公开数据集TextZoom上的实验结果,与最近TATT文本超分网络性能相比,在峰值信噪比指标上提高0.11 dB,有效提高文本清晰度和边缘纹理细节,同时提升1.5%的平均识别准确率,改进文本图像的可读性. 展开更多
关键词 计算机视觉 场景文本图像 超分辨率 注意力机制 特征信息关联
下载PDF
文本核重建与扩展实现任意形状文本检测
11
作者 邓胜军 陈念年 《计算机工程与应用》 CSCD 北大核心 2024年第9期228-236,共9页
基于分割的方法对自然场景中的文本进行像素级预测,大幅度提升了对任意形状文本的检测效果,但是如何有效分离相邻文本仍然是检测中的难题。目前广泛采用的方法是通过缩小文本注释边界得到文本核来分离相邻文本。然而,网络预测文本核时... 基于分割的方法对自然场景中的文本进行像素级预测,大幅度提升了对任意形状文本的检测效果,但是如何有效分离相邻文本仍然是检测中的难题。目前广泛采用的方法是通过缩小文本注释边界得到文本核来分离相邻文本。然而,网络预测文本核时舍弃了文本核外大部分信息,降低了基于分割的文本检测方法的性能。为了解决这个问题,提出了一种文本核重建算法,将文本核的生成放在后处理阶段,通过网络预测的方向场将文本实例向内收缩形成文本核。同时,提出了一种文本核扩展算法用于将文本核恢复为完整的文本实例。实验表明,所提方法在Total-Text(88.66%)、CTW-1500(87.28%)和MSRA-TD500(90.65%)三个数据集上取得了相似或最好的检测性能。 展开更多
关键词 场景文本检测 任意形状 文本核
下载PDF
基于深度学习的自然场景文本检测综述 被引量:1
12
作者 连哲 殷雁君 +1 位作者 云飞 智敏 《计算机工程》 CAS CSCD 北大核心 2024年第3期16-27,共12页
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和... 基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。 展开更多
关键词 深度学习 计算机视觉 自然场景文本 文本检测 多方向文本检测 多尺度文本检测
下载PDF
面向场景文本检测模型的迁移对抗攻击
13
作者 焦远洋 王永平 张晓琳 《内蒙古科技大学学报》 CAS 2024年第1期46-51,共6页
针对场景文本检测算法的攻击算法不能有效兼顾迁移性、隐蔽性和攻击效果的问题,提出MIFGSM-W攻击算法。算法提出通用概率图,引入动量项获取稳定的梯度更新方向;使用可微函数替代标准二值化函数,构造损失函数;引入变量,并提出改进的优化... 针对场景文本检测算法的攻击算法不能有效兼顾迁移性、隐蔽性和攻击效果的问题,提出MIFGSM-W攻击算法。算法提出通用概率图,引入动量项获取稳定的梯度更新方向;使用可微函数替代标准二值化函数,构造损失函数;引入变量,并提出改进的优化策略,约束扰动;提出个体攻击算法及通用攻击算法。在多个数据集上实验,结果表明:该攻击算法能够有效攻击EAST,Textbox++,Craft,DBNet场景文本检测模型,且生成的对抗样本兼顾迁移性和视觉隐蔽性。 展开更多
关键词 场景文本检测 对抗样本 MIFGSM-W攻击算法 迁移性
下载PDF
基于深度学习的场景文字识别技术研究
14
作者 陈志宇 司占军 朱新雨 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第3期237-243,291,共8页
基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss... 基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss作为损失函数来优化目标检测框,将卷积块注意力模块(Convolutional Block Attention Module,CBAM)嵌入到卷积层中,使网络在特定位置和通道上更加关注目标,抑制其余复杂背景信息以此来提高模型的文字检测能力;分析中文的文字特征,对CRNN的特征提取网络改进优化,提高了原有模型对中文、中英文混合识别的准确性。实验结果表明,通过对文字检测与识别模型和算法的改进优化,大大提高了场景文字识别技术的准确性和鲁棒性。 展开更多
关键词 深度学习 场景文字识别技术 图像处理 目标检测 文字识别
下载PDF
基于改进MTSv2的场景文本检测和识别算法研究
15
作者 王艳媛 茅正冲 杨雨涵 《计算机测量与控制》 2024年第9期256-261,共6页
在自然场景图像中,丰富的文本内容对于全面理解场景非常重要。针对自然场景文本图像存在背景复杂、文本粘连、文本多角度等问题,提出一种基于改进MTSv2的文本检测和识别算法;检测算法以MTSv2为基础网络,采用CBAM注意力机制增大特征图中... 在自然场景图像中,丰富的文本内容对于全面理解场景非常重要。针对自然场景文本图像存在背景复杂、文本粘连、文本多角度等问题,提出一种基于改进MTSv2的文本检测和识别算法;检测算法以MTSv2为基础网络,采用CBAM注意力机制增大特征图中的小型文本的权重,更好捕捉图像中的关键特征;融合CE-FPN结构,减轻多尺度融合产生的特征混叠问题;引入focal loss函数,减少正负样本分布不均衡对识别准确率的影响,使网络更加关注难以分类的样本,改善模型的泛化能力;通过多个文本数据集进行训练,并在ICDAR2015数据集上进行验证,改进后模型对场景文本检测和识别的准确率达到了89.3%,召回率达到了87.6%,F_(1)值达到了88.5%,相比于原模型都有一定程度的提高。 展开更多
关键词 场景文本 文本检测 文本识别 CBAM CE-FPN 注意力机制
下载PDF
嵌入拓扑特征的自然场景文本检测方法
16
作者 郑侠聪 程良伦 +1 位作者 黄国恒 王敬超 《广东工业大学学报》 CAS 2024年第3期102-109,共8页
传统的基于锚点框(anchor box)实现的自然场景文本检测方法中,锚点框容易受到其他文本实例的干扰产生误判或精度降低,且文本实例包含强烈的拓扑特征但并未得到重视,导致在弯曲环形文本检测任务中表现不佳。针对这个问题提出了一种新颖... 传统的基于锚点框(anchor box)实现的自然场景文本检测方法中,锚点框容易受到其他文本实例的干扰产生误判或精度降低,且文本实例包含强烈的拓扑特征但并未得到重视,导致在弯曲环形文本检测任务中表现不佳。针对这个问题提出了一种新颖的神经网络结构,引入图卷积神经网络的概念,充分考虑邻近锚点框之间的联系,并融入锚点框的拓扑特征辅助图神经网络的学习,提高整体网络的有效性。在两个公开的自然场景文本检测数据集上进行了消融实验,在公开数据集CTW1500中,本文提出的方法使模型在召回率、精确率、F分数这3个指标上分别提高了3.0%、1.9%以及2.5%,在公开数据集Totel-Text中这3个指标分别是2.2%、1.8%以及2.0%。此外,本文方法还与近年提出的其他文本检测算法进行了比较,实验结果证明本文提出的方法在复杂自然场景下文本检测效果优秀,所提出的模块有利于文本检测性能的提高。 展开更多
关键词 文本检测 自然场景 图神经网络 拓扑特征
下载PDF
基于双分支序列残差注意力的场景文本图像超分辨率重建
17
作者 李大海 吕春桂 王振东 《计算机工程》 CAS CSCD 北大核心 2024年第9期286-295,共10页
针对现有场景文本图像超分辨率重建方法存在的重建文本图像细节信息丢失和边缘模糊的问题,提出一种基于双分支序列残差注意力的重建方法DSRASRN。首先,DSRASRN采用一种新的双分支序列残差注意力模块(DSRAB),该模块采用双分支结构分别专... 针对现有场景文本图像超分辨率重建方法存在的重建文本图像细节信息丢失和边缘模糊的问题,提出一种基于双分支序列残差注意力的重建方法DSRASRN。首先,DSRASRN采用一种新的双分支序列残差注意力模块(DSRAB),该模块采用双分支结构分别专注于水平和垂直方向上的上下文信息提取,并通过高效通道注意力(ECA)机制给予重要信息更高的权重,以增强特征的表达;其次,在DSRASRN内新增文本边缘感知模块(TEAB),增强对文本图像边缘细节和纹理的处理,TEAB采用特定方向的卷积核捕捉特定空间方向上的信息,同时结合具有不同空洞率的空洞卷积来扩大感受野并增强对高频信息的重建能力。在真实场景文本图像数据集TextZoom上的实验结果表明,DSRASRN不仅可以重建出更多的图像细节信息,而且在提高文本识别准确率方面也表现出明显优势。与TSRN、TBSRN、TG、TPGSR方法相比,DSRASRN的峰值信噪比(PSNR)分别提升0.27、0.78、0.59和0.51 dB,且DSRASRN可以使文本识别器ASTER、MORAN和CRNN的平均文本识别精度分别达到65.0%、62.1%和52.0%。此外,真实场景文本识别图像数据集ICDAR2015和SVT上的测试结果表明DSRASRN具有良好的泛化能力。 展开更多
关键词 超分辨率重建 场景文本图像 双分支序列残差 特征增强 边缘感知
下载PDF
基于改进YOLOv5的快速水平文本检测算法
18
作者 孙巧榆 张静 刘珍兵 《江苏海洋大学学报(自然科学版)》 CAS 2024年第1期75-81,共7页
基于深度学习的文本检测算法具有强大的特征学习能力和泛化能力,但推理速度通常较慢。针对此问题,提出了基于改进YOLOv5的快速水平文本检测算法T-YOLOv5,通过在SPPF(spatial pyramid pooling-fast)模块中嵌入改进的CAM(channel attentio... 基于深度学习的文本检测算法具有强大的特征学习能力和泛化能力,但推理速度通常较慢。针对此问题,提出了基于改进YOLOv5的快速水平文本检测算法T-YOLOv5,通过在SPPF(spatial pyramid pooling-fast)模块中嵌入改进的CAM(channel attention module)提高网络的特征提取能力,并在CIoU(complete IoU)损失中增加形状损失提高损失函数的收敛速度。所提算法在公共数据集ICDAR2013上F值达到86.5,推理速度达112 FPS。实验结果表明,在检测结果和推理速度上,所提算法T-YOLOv5与现有基于深度学习的文本检测算法相比具有一定的竞争力。 展开更多
关键词 文本检测 深度学习 YOLOv5 场景文本
下载PDF
基于模糊模式感知模块的场景文本图像超分辨率算法
19
作者 张密 余海洋 《计算机系统应用》 2024年第4期103-112,共10页
现有的场景文本识别器容易受到模糊文本图像的困扰,导致在实际应用中性能较差.因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器,以提高输入图像的质量.然而,用于场景文本图像超分辨率任务的真实世界... 现有的场景文本识别器容易受到模糊文本图像的困扰,导致在实际应用中性能较差.因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器,以提高输入图像的质量.然而,用于场景文本图像超分辨率任务的真实世界训练样本很难收集;此外,现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像,而忽略了从HR到LR图像的模糊模式.本文提出了模糊模式感知模块,该模块从现有的真实世界HR-LR文本图像对中学习模糊模式,并将其转移到其他HR图像中,以生成具有不同退化程度的LR图像.本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对,以弥补训练数据的不足,从而显著提高性能.实验结果表明,当配备提出的模糊模式感知模块时,场景文本图像超分辨率方法的性能可以进一步提高,例如,SOTA方法TG在使用CRNN文本识别器进行评估时,识别准确率提高了5.8%. 展开更多
关键词 场景文本图像超分辨率 场景文本识别 图像模糊模式 条件生成对抗网络 深度学习
下载PDF
基于增强多层次特征融合的自然场景文本检测
20
作者 周燕 韦勤彬 +3 位作者 廖俊玮 曾凡智 刘翔宇 周月霞 《佛山科学技术学院学报(自然科学版)》 CAS 2024年第3期1-13,共13页
针对自然场景图像中未聚焦小文本、复杂背景文本以及宽间距弯曲文本等造成的检测难题,提出了一种基于增强多层次特征融合的自然场景文本检测方法,该方法包括局部注意力特征增强(Local Attention Feature Enhanced,LAFE)模块和多层次增... 针对自然场景图像中未聚焦小文本、复杂背景文本以及宽间距弯曲文本等造成的检测难题,提出了一种基于增强多层次特征融合的自然场景文本检测方法,该方法包括局部注意力特征增强(Local Attention Feature Enhanced,LAFE)模块和多层次增强特征融合(Multi-level Enhanced Feature Fused,MEFF)模块。LAFE模块通过堆叠空洞卷积扩大网络感受野,结合通道与空间注意力来增强像素点分类能力;MEFF模块作为多层次增强特征连接分支,引入可变形卷积来增强特征图之间的信息融合。实验结果表明,所提方法在常用文本数据集上取得了较好的性能,其中,在ICDAR2015、Total-Text数据集上的综合指标F分别达到了88.1%和86.5%,相比原方法分别提升了0.8%和1.8%。 展开更多
关键词 自然场景文本检测 注意力机制 像素点分类 空洞卷积 特征融合
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部