-
题名基于空间域和频率域特征融合的场景文本识别
被引量:3
- 1
-
-
作者
霍华骑
陆璐
-
机构
华南理工大学计算机科学与工程学院
鹏城实验室
-
出处
《计算机科学》
CSCD
北大核心
2023年第S02期36-43,共8页
-
基金
广东省重点领域研究计划(2022B0101070001)。
-
文摘
对于小样本语言无关场景的文本识别,现有的方法往往面临鲁棒性低和泛化能力差的问题。针对这一问题,一方面,在特征提取阶段,提出了基于空间域和频率域特征融合的双流网络结构,其包含一个提取空间域特征的深度残差卷积网络分支,以及提取频率域特征的一维快速傅里叶变换和浅层神经网络分支,接着使用通道注意力机制融合这两种特征。另一方面,在序列建模阶段,针对语言无关场景的特点,提出一种多尺度一维卷积模块用来代替双向长短期记忆网络。然后结合现有的TPS矫正模块和CTC解码器搭建完整模型。训练过程中采用了迁移学习的方法,先在大型英文数据集上进行预训练,后在目标数据集上进行微调。在文中整理的两个小样本语言无关数据集上的实验结果表明,所提模型在准确率上优于现有的模型,验证了其在该场景下的具有较高的鲁棒性和泛化能力;此外,在语言相关场景的5个基准数据集上的相关实验(不用微调)表明,使用文中所述特征提取模块的方法优于对比的基线方法,证明了所提出的双流特征融合网络的有效性和通用性。
-
关键词
深度学习
场景文本识别
双流网络
频率域分支
小样本
-
Keywords
Deep learning
Scene text recognition
Dual-stream network
Frequency domain branch
Few-shot
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-