-
题名基于改进DAN的自然场景下越南文字的识别
- 1
-
-
作者
王利兵
俸亚特
文益民
-
机构
广西图像图形与智能处理重点实验室(桂林电子科技大学)
广西文化和旅游智慧技术重点实验室(桂林旅游学院)
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第5期1058-1068,共11页
-
基金
广西重点研发计划项目(桂科AB21220023)
国家自然科学基金(62366011)
广西图像图形与智能处理重点实验室项目(GIIP2306)。
-
文摘
越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention network, DAN)的基础上,设计了视觉特征与序列特征融合模块(Visual feature and sequence feature fusion module, VSFM),分别利用双向门控循环单元(Bidirectional gated recurrent unit, Bi-GRU)在水平方向和竖直方向进行序列建模,进一步缓解注意力漂移,增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块(Enhanced decoupled text decoder module, ETDM),在解码器中分类时结合了更多的特征信息,可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。
-
关键词
声调语言文字
越南语文字
变音符号
注意力漂移
场景文本识别
-
Keywords
tonal language
Vietnamese text
diacritic sign
attention drift
scene text recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-