期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多模态门控自注意力机制的视觉问答模型 被引量:2
1
作者 陈巧红 漏杨波 +1 位作者 孙麒 贾宇波 《浙江理工大学学报(自然科学版)》 2022年第3期413-423,共11页
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模... 针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模态特征自注意力学习的输出结果;同时结合跨模态双导向注意力机制与堆叠注意力模块,共同学习协同注意力和深层注意力;最后将包含丰富注意结果的视觉和语言特征进行特征融合,通过分类网络获得预测结果。在视觉问答公开数据集VQA-v2上进行实验,结果表明:该模型在Test-dev和Test-std两个测试子集的总准确率分别为70.76%和71.12%,优于当前主要模型;变体模型间的性能对比验证了模型中各模块的有效性。该模型具有较强的过滤噪声信息能力,有效提升了视觉问答模型的性能。 展开更多
关键词 视觉问答 多模态 门控自注意力 双导向注意力 特征融合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部