期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多模态门控自注意力机制的视觉问答模型
被引量:
2
1
作者
陈巧红
漏杨波
+1 位作者
孙麒
贾宇波
《浙江理工大学学报(自然科学版)》
2022年第3期413-423,共11页
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模...
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模态特征自注意力学习的输出结果;同时结合跨模态双导向注意力机制与堆叠注意力模块,共同学习协同注意力和深层注意力;最后将包含丰富注意结果的视觉和语言特征进行特征融合,通过分类网络获得预测结果。在视觉问答公开数据集VQA-v2上进行实验,结果表明:该模型在Test-dev和Test-std两个测试子集的总准确率分别为70.76%和71.12%,优于当前主要模型;变体模型间的性能对比验证了模型中各模块的有效性。该模型具有较强的过滤噪声信息能力,有效提升了视觉问答模型的性能。
展开更多
关键词
视觉问答
多模态
门控自
注意力
双导向注意力
特征融合
下载PDF
职称材料
题名
基于多模态门控自注意力机制的视觉问答模型
被引量:
2
1
作者
陈巧红
漏杨波
孙麒
贾宇波
机构
浙江理工大学信息学院
出处
《浙江理工大学学报(自然科学版)》
2022年第3期413-423,共11页
基金
浙江理工大学中青年骨干人才培养经费项目。
文摘
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodal gate self-attention, MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模态特征自注意力学习的输出结果;同时结合跨模态双导向注意力机制与堆叠注意力模块,共同学习协同注意力和深层注意力;最后将包含丰富注意结果的视觉和语言特征进行特征融合,通过分类网络获得预测结果。在视觉问答公开数据集VQA-v2上进行实验,结果表明:该模型在Test-dev和Test-std两个测试子集的总准确率分别为70.76%和71.12%,优于当前主要模型;变体模型间的性能对比验证了模型中各模块的有效性。该模型具有较强的过滤噪声信息能力,有效提升了视觉问答模型的性能。
关键词
视觉问答
多模态
门控自
注意力
双导向注意力
特征融合
Keywords
visual question answering
multimodal
gate self-attention
dual guided-attention
feature fusion
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多模态门控自注意力机制的视觉问答模型
陈巧红
漏杨波
孙麒
贾宇波
《浙江理工大学学报(自然科学版)》
2022
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部