目的场景文本识别(scene text recognition,STR)是计算机视觉中的一个热门研究领域。最近,基于多头自注意力机制的视觉Transformer(vision Transformer,ViT)模型被提出用于STR,以实现精度、速度和计算负载的平衡。然而,没有机制可以保...目的场景文本识别(scene text recognition,STR)是计算机视觉中的一个热门研究领域。最近,基于多头自注意力机制的视觉Transformer(vision Transformer,ViT)模型被提出用于STR,以实现精度、速度和计算负载的平衡。然而,没有机制可以保证不同的自注意力头确实捕捉到多样性的特征,这将导致使用多头自注意力机制的ViT模型在多样性极强的场景文本识别任务中表现不佳。针对这个问题,提出了一种新颖的正交约束来显式增强多个自注意力头之间的多样性,提高多头自注意力对不同子空间信息的捕获能力,在保证速度和计算效率的同时进一步提高网络的精度。方法首先提出了针对不同自注意力头上Q(query)、K(key)和V(value)特征的正交约束,这可以使不同的自注意力头能够关注到不同的查询子空间、键子空间、值子空间的特征,关注不同子空间的特征可以显式地使不同的自注意力头捕捉到更具差异的特征。还提出了针对不同自注意力头上Q、K和V特征线性变换权重的正交约束,这将为Q、K和V特征的学习提供正交权重空间的解决方案,并在网络训练中带来隐式正则化的效果。结果实验在7个数据集上与基准方法进行比较,在规则数据集Street View Text(SVT)上精度提高了0.5%;在不规则数据集CUTE80(CT)上精度提高了1.1%;在7个公共数据集上的整体精度提升了0.5%。结论提出的即插即用的正交约束能够提高多头自注意力机制在STR任务中的特征捕获能力,使ViT模型在STR任务上的识别精度得到提高。本文代码已公开:https://github.com/lexiaoyuan/XViTSTR。展开更多
文摘情感分析是自然语言处理领域的重要任务之一,情感分析任务包含显式情感分析和隐式情感分析。由于隐式情感不包含显式情感词语,情感表达更加委婉,所以面临更大的挑战。提出基于图注意力神经网络的隐式情感分析模型ISA-GACNN(Implicit Sentiment Analysis Based on Graph Attention Convolutional Neural Network),构建文本和词语的异构图谱,使用图卷积操作传播语义信息,使用注意力机制计算词语对文本情感表达的贡献程度。针对多头注意力保存重复信息问题,使用注意力正交约束使得不同注意力存储不同的情感信息;针对情感信息分布不均的情况,提出注意力分值约束使模型关注部分重要词语。在隐式情感分析评测数据集上验证模型效果,所提出模型的F值达到91.7%,远高于文献中的基准模型;对注意力机制进行分析,验证了正交约束和分值约束的有效性。