-
题名基于模糊模式感知模块的场景文本图像超分辨率算法
- 1
-
-
作者
张密
余海洋
-
机构
复旦大学计算机科学技术学院
-
出处
《计算机系统应用》
2024年第4期103-112,共10页
-
文摘
现有的场景文本识别器容易受到模糊文本图像的困扰,导致在实际应用中性能较差.因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器,以提高输入图像的质量.然而,用于场景文本图像超分辨率任务的真实世界训练样本很难收集;此外,现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像,而忽略了从HR到LR图像的模糊模式.本文提出了模糊模式感知模块,该模块从现有的真实世界HR-LR文本图像对中学习模糊模式,并将其转移到其他HR图像中,以生成具有不同退化程度的LR图像.本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对,以弥补训练数据的不足,从而显著提高性能.实验结果表明,当配备提出的模糊模式感知模块时,场景文本图像超分辨率方法的性能可以进一步提高,例如,SOTA方法TG在使用CRNN文本识别器进行评估时,识别准确率提高了5.8%.
-
关键词
场景文本图像超分辨率
场景文本识别
图像模糊模式
条件生成对抗网络
深度学习
-
Keywords
scene text image super-resolution(STISR)
scene text recognition
image blurring pattern
conditional generative adversarial network(CGAN)
deep learning
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名不定长数据中识别模糊文本的数据加载方法
- 2
-
-
作者
苗小爱
-
机构
青岛酒店管理职业技术学院
-
出处
《软件导刊》
2023年第5期177-183,共7页
-
文摘
随着人工智能的发展,越来越多的企业开始构建智能应用,OCR即是人工智能落地应用之一,也是当前研究热点。在自然场景下,由于拍摄环境复杂、拍摄设备质量参差不齐,以及拍摄的图片存在文字模糊、文本部分缺失、背景复杂等情况,会造成在不定长数据集上训练文本识别模型困难的问题。针对此情况,提出一种新的数据加载方法以加快收敛速度,提高模型识别准确率。该方法主要包括两部分:(1)设计近似背景填充以适当增加负样本比例;(2)设定图像放缩阈值,保证真实数据形状并对数据进行适度放缩以达到自然场景下文本数据样式效果。与常用的经典数据加载方法相比,该数据加载方法具有更快的拟合速度和识别准确率。
-
关键词
文本识别
文字模糊
数据加载
图像放缩阈值
近似背景填充
-
Keywords
text recognition
text blur
data loading
image scaling threshold
approximate background fill
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-