期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
TextRail:复杂自然场景下的不规则文本检测算法
1
作者 马静 薛浩 郭小宇 《计算机工程与应用》 CSCD 北大核心 2023年第21期112-122,共11页
文本检测是文本识别的前提和基础。复杂自然场景下,受透视、遮挡、变形等因素影响,图像质量难以保证,同时图像中的文字形式丰富多样,多呈不规则形状,加上复杂背景的干扰,致使文本检测难度大、精确度低。针对文本形状不规则的场景,提出... 文本检测是文本识别的前提和基础。复杂自然场景下,受透视、遮挡、变形等因素影响,图像质量难以保证,同时图像中的文字形式丰富多样,多呈不规则形状,加上复杂背景的干扰,致使文本检测难度大、精确度低。针对文本形状不规则的场景,提出了一种文本边轨模型(TextRail),该模型基于文本上、下边界基准点表示文本区域的思想,实现对任意形状文本的高效检测。TextRail使用全卷积网络(full convolutional network,FCN)及特征金字塔网络(feature pyramid network,FPN)提取文本图像特征;将特征送入检测头网络,实现文本区域上下边界基准点的预测,将预测结果通过位置感知非极大抑制(locality-aware non-maximum suppression,LNMS)合并,得到最终的上下边界基准点;采用薄板样条插值(thin plate spline,TPS)的方法实现对不规则文本的自动矫正。通过大量的实验验证,TextRail在F1分值上优于其他文本检测模型。同时TextRail模型可以准确表示出文字的朝向、弯曲和变形情况,有效提升了不规则文本检测的准确率和鲁棒性。 展开更多
关键词 复杂自然场景 不规则文本检测 文本矫正 基准点 TextRail模型
下载PDF
基于跨模态相似度学习的端到端不规则文本检索方法
2
作者 李岩 张敏艺 +2 位作者 宿汉辰 李芳芳 李斌阳 《无线电工程》 北大核心 2023年第3期501-507,共7页
场景文本检索是指从场景中搜索并定位与给定文本相同或相似的文本实例。通过计算机视觉方法实现文本检索可以辅助用户在指定场景中自动找到感兴趣文本,因此被广泛应用于图像安全性审核、图书检索等领域。然而,在某些场景中文本时常呈现... 场景文本检索是指从场景中搜索并定位与给定文本相同或相似的文本实例。通过计算机视觉方法实现文本检索可以辅助用户在指定场景中自动找到感兴趣文本,因此被广泛应用于图像安全性审核、图书检索等领域。然而,在某些场景中文本时常呈现弯曲、压缩和拉伸等不规则形态,文本区域提取与匹配面临极大挑战。为了解决这一问题,建立了一个端到端网络模型,将不规则文本提取和跨模态相似度学习统一到一个框架内,利用学习到的相似度对检测的文本实例排序,从而实现对不规则文本的检索。在SVT,STR和CTR三个数据集的实验结果表明,与现有文本检索方法相比,提出的框架在推理速度保持3.7帧/秒的情况下平均准确率比现有最好方法提升1%~3%。为了进一步验证所提方法对于不规则文本检索的有效性,建立了一个新的不规则文本数据集AIDATA,并与STR-TDSL方法进行对比实验,结果表明,在推理速度降低不到20%的情况下可以将平均准确率提升25%以上。 展开更多
关键词 场景文本检索 端到端训练 不规则文本 相似度学习
下载PDF
多维度卷积融合的密集不规则文本检测 被引量:5
3
作者 孟月波 石德旺 +2 位作者 刘光辉 徐胜军 金丹 《光学精密工程》 EI CAS CSCD 北大核心 2021年第9期2210-2221,共12页
基于深度学习的自然场景文本检测算法进展显著,但对具有密集不规则排布特点的文本来说,由于其间距小、分布密集,导致特征提取困难,文本检测不全;同时,现有文本检测方法常采用的不同维度特征直接拼接的方式会导致多尺度特征融合不充分,... 基于深度学习的自然场景文本检测算法进展显著,但对具有密集不规则排布特点的文本来说,由于其间距小、分布密集,导致特征提取困难,文本检测不全;同时,现有文本检测方法常采用的不同维度特征直接拼接的方式会导致多尺度特征融合不充分,造成语义信息的丢失。针对上述问题,本文提出一种基于多维度卷积融合的密集不规则文本检测方法。网络主体采用FPN结构,设计了文本增强模块(Text Enhancement Module,TEM),通过引入额外全局文本映射以强化网络对文本信息的关注能力;提出了通道融合策略(Channel Fusion Strategy,CFS),采用自底向上方式建立高低维度特征信息链,生成语义更加丰富的特征图,减少信息损失;预测阶段采用渐进式拓展文本核的方法生成文本预测结果。在DAST1500及ICDAR2015和CTW1500数据集上的实验表明,该方法其F值分别达到81.8%,83.0%及79.0%。提出算法不仅在密集不规则文本检测上表现出更好的性能,而且在一般自然场景文本(多向、曲线文本)上也具有一定竞争力。 展开更多
关键词 密集不规则文本 深度学习 卷积神经网络 文本增强 通道融合
下载PDF
不规则文本中商品名称识别的特征选择 被引量:3
4
作者 杨美妮 何涛 +1 位作者 沈静 张建军 《计算机工程与科学》 CSCD 北大核心 2016年第10期2153-2157,共5页
传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解... 传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。 展开更多
关键词 商品名称 不规则文本 最大熵模型 词的分布式表示
下载PDF
视觉注意与语义感知联合推理实现场景文本识别
5
作者 佟国香 董田荣 胡珩彰 《数据采集与处理》 CSCD 北大核心 2023年第3期665-675,共11页
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。... 场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。 展开更多
关键词 场景文本识别 不规则文本 视觉注意模块 语义感知模块 多模态
下载PDF
基于上下文注意的场景文本识别
6
作者 董田荣 《软件工程与应用》 2023年第2期345-353,共9页
作为计算机视觉领域的研究热点,自然场景中不规则文本的识别是一项具有挑战的任务。本文提出了一种简单有效的方法来识别不规则文本。所提出的方法采用薄板样条变换将不规则文本转换为规则文本,采用融合空间多尺度感知模块的ResNet34提... 作为计算机视觉领域的研究热点,自然场景中不规则文本的识别是一项具有挑战的任务。本文提出了一种简单有效的方法来识别不规则文本。所提出的方法采用薄板样条变换将不规则文本转换为规则文本,采用融合空间多尺度感知模块的ResNet34提取文本特征,然后将文本特征通过Bi-LSTM编码为上下文特征。整个模型分别使用上下文感知模块和文本特征增强模块进行监督。上下文感知模块关注于文本特征与上下文特征构成的新的特征空间,文本特征增强模块重点关注单个字符本身以处理无上下文语义的文本行。与其他的文本识别模型相比,所提出的方法对于不规则文本的识别能力有较大的提高,同时保持了对于常规文本的识别能力。在通用的场景文本数据集上通过大量的实验验证了模型对于不规则文本识别的有效性。 展开更多
关键词 文本识别 不规则文本 薄板样条变换 Bi-LSTM 多尺度感知
下载PDF
基于矫正网络的场景文本识别应用与研究
7
作者 赵高照 丁学明 《智能计算机与应用》 2020年第12期80-85,共6页
场景文本在文字识别(Optical Character Recognition,OCR)领域一直是个难题,因此受到学术界的广泛关注。场景文本通常包括透视文本、弯曲文本、定向文本等。目前大多深度学习方法都不能够很好的识别这些不规则的文本,特别是严重变形的... 场景文本在文字识别(Optical Character Recognition,OCR)领域一直是个难题,因此受到学术界的广泛关注。场景文本通常包括透视文本、弯曲文本、定向文本等。目前大多深度学习方法都不能够很好的识别这些不规则的文本,特别是严重变形的文本。针对上述问题,本文提出了一种迭代思想的矫正网络用于场景文本的识别,这种网络是一种端到端无需额外字符级注释的可训练网络。该矫正网络通过迭代细化的方式,逐步达到最优矫正。其中参数变换采用薄板样条(Thin Plate Spline,TPS)参数变换,自适应的进行图像变换,进而提高后序识别网络的识别性能。通过在大量公共数据集上进行的实验,证明了本文方法的有效性,特别是在不规则文本上的实验,证明了该方法有着较好的鲁棒性和准确性。 展开更多
关键词 场景文本 迭代 端到端 图像变换 TPS 不规则文本
下载PDF
基于深度学习的铸件字符识别
8
作者 常秀 《运筹与模糊学》 2023年第2期1388-1400,共13页
针对铸件字符人工识别效率低、人工记录易出错,现有的字符识别方法无法应对工业场景下复杂的铸件字符,且场景本身存在极端光照、遮挡、模糊的问题,提出了改进的PGNet网络。该网络在识别水平文本的同时,也能很好地识别弯曲文本和不规则... 针对铸件字符人工识别效率低、人工记录易出错,现有的字符识别方法无法应对工业场景下复杂的铸件字符,且场景本身存在极端光照、遮挡、模糊的问题,提出了改进的PGNet网络。该网络在识别水平文本的同时,也能很好地识别弯曲文本和不规则文本。针对铸件字符数据量不足的情况,加入STN矫正模块进行数据增强,不同的实验结果表明,对准召的提升大于1%。此外,通过优化PGNet网络的损失函数,降低了误识别率。通过对PGNet网络的改进,在一定程度上解决了上述问题,使得铸件字符的溯源与管控过程更加准确和高效。 展开更多
关键词 工业智能 不规则文本 弯曲文本 PGNet网络 铸件字符识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部