-
题名基于改进Mask R-CNN的越南场景文字检测
- 1
-
-
作者
俸亚特
文益民
-
机构
桂林电子科技大学计算机与信息安全学院
广西图像图形与智能处理重点实验室(桂林电子科技大学)
-
出处
《计算机应用》
CSCD
北大核心
2021年第12期3551-3557,共7页
-
基金
国家自然科学基金资助项目(61866007)
广西自然科学基金资助项目(2018GXNSFDA138006)
+1 种基金
教育部人文社会科学研究项目(17JDGC022)
广西学位与研究生教育改革项目(JGY2017055)。
-
文摘
针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络MaskR-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并将文字区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域。针对用常规非极大值抑制(NMS)算法不能剔除重复文字检测框的问题,设计了一个针对文字区域的文本区域过滤模块并添加在检测模块之后,以有效地剔除冗余检测框。使用模型联合训练的方法训练网络,训练过程包含两部分:第一部分为特征金字塔网络(FPN)和区域生成网络(RPN)的训练,训练使用的数据集为大规模公开的拉丁文字数据,目的是增强模型在不同场景下提取文字的泛化能力;第二部分为候选框坐标回归模块和区域分割模块的训练,此部分模型参数使用像素级标注的越南场景文字数据进行训练,使模型能对包括声调符号的越南文字区域进行分割。大量交叉验证实验和对比实验结果表明,与MaskR-CNN相比,所提算法在不同的交并比(IoU)阈值下都具有更好的准确率与召回率。
-
关键词
MaskR-CNN
越南场景文字检测
声调符号
模型联合训练
分割模型
重复检测
-
Keywords
Mask R-CNN
Vietnamese scene text detection
tone mark
model joint training
segmentation model
duplicate detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-