提出了一个视觉增强的双分支识别模型(double branches recognition model with visual enhancement, DBVE).该模型包括视觉识别分支和注意力识别分支,前者使用视觉增强网络生成的视觉特征预测字符概率,后者先通过Bi-LSTM获取语义信息,...提出了一个视觉增强的双分支识别模型(double branches recognition model with visual enhancement, DBVE).该模型包括视觉识别分支和注意力识别分支,前者使用视觉增强网络生成的视觉特征预测字符概率,后者先通过Bi-LSTM获取语义信息,再由特征融合模块连接视觉信息与语义信息,继而用注意力机制预测字符概率.用高斯核函数替换了会造成二次复杂度的softmax函数,并进一步用Nystorm方法解决了高斯核不收敛的问题.实验表明,与基线模型相比,DBVE在不规则文本数据集CUTE上的识别精度提高了9.1%,在多个数据集上的平均推断效率提升了2.7倍,而在语义无关数据集RandText上的识别精度比语义增强方法SEED高约18%.展开更多
文摘提出了一个视觉增强的双分支识别模型(double branches recognition model with visual enhancement, DBVE).该模型包括视觉识别分支和注意力识别分支,前者使用视觉增强网络生成的视觉特征预测字符概率,后者先通过Bi-LSTM获取语义信息,再由特征融合模块连接视觉信息与语义信息,继而用注意力机制预测字符概率.用高斯核函数替换了会造成二次复杂度的softmax函数,并进一步用Nystorm方法解决了高斯核不收敛的问题.实验表明,与基线模型相比,DBVE在不规则文本数据集CUTE上的识别精度提高了9.1%,在多个数据集上的平均推断效率提升了2.7倍,而在语义无关数据集RandText上的识别精度比语义增强方法SEED高约18%.