针对现有场景文本识别方法只关注局部序列字符分类,而忽略了整个单词全局信息的问题,提出了一种多级特征选择的场景文本识别(multilevel feature selection scene text recognition,MFSSTR)算法。该算法使用堆叠块体系结构,利用多级特...针对现有场景文本识别方法只关注局部序列字符分类,而忽略了整个单词全局信息的问题,提出了一种多级特征选择的场景文本识别(multilevel feature selection scene text recognition,MFSSTR)算法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征和语义特征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention selection decoder,MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制将新的特征空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测,同时在训练过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本数据集上识别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。展开更多
文摘针对现有场景文本识别方法只关注局部序列字符分类,而忽略了整个单词全局信息的问题,提出了一种多级特征选择的场景文本识别(multilevel feature selection scene text recognition,MFSSTR)算法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征和语义特征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention selection decoder,MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制将新的特征空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测,同时在训练过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本数据集上识别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。