期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于复合图文特征的视觉问答模型研究
1
作者 邱南 顾玉宛 +3 位作者 石林 李宁 庄丽华 徐守坤 《计算机应用研究》 CSCD 北大核心 2021年第8期2293-2298,共6页
针对当前主流视觉问答(visual question answering,VQA)任务使用区域特征作为图像表示而面临的训练复杂度高、推理速度慢等问题,提出一种基于复合视觉语言的卷积网络(composite visionlinguistic convnet,CVlCN)来对视觉问答任务中的图... 针对当前主流视觉问答(visual question answering,VQA)任务使用区域特征作为图像表示而面临的训练复杂度高、推理速度慢等问题,提出一种基于复合视觉语言的卷积网络(composite visionlinguistic convnet,CVlCN)来对视觉问答任务中的图像进行表征。该方法将图像特征和问题语义通过复合学习表示成复合图文特征,然后从空间和通道上计算复合图文特征的注意力分布,以选择性地保留与问题语义相关的视觉信息。在VQA-v2数据集上的测试结果表明,该方法在视觉问答任务上的准确率有明显的提升,整体准确率达到64.4%。模型的计算复杂度较低且推理速度更快。 展开更多
关键词 视觉问答 复合视觉语言特征 区域特征 多模态融合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部