面向视觉对话的自适应视觉记忆网络

Adaptive Visual Memory Network for Visual Dialog

下载PDF

导出

摘要视觉对话中最具挑战的难点是视觉共指消解问题,该文针对此问题设计了一种自适应视觉记忆网络(AVMN)。该方法直接将视觉信息存储于外部记忆库,整合了文本和视觉定位过程,进而有效缓解了在这两个过程中所产生的误差。此外在很多场景下,仅依据图片便可对提出的问题进行回答,历史信息反而会导致不必要的误差。因此,模型自适应地读取外部视觉记忆,并融合了残差视觉信息。实验证明,相比于其他方法,该模型在各项指标上均取得了更优的效果。 The key challenge in visual dialogs is the problem of visual co-reference resolution.This paper proposes an adaptive visual memory network(AVMN),which applies external memory bank to directly store grounded visual information.The textual and visual positioning processes are integrated so that the possible errors in the two processes are effectively relieved.Moreover,the answers can be produced only based on the question and image in many cases.The historical information somewhat causes unnecessary errors,so we adaptively read the external visual memory.Furthermore,a residual queried image is fused with the attended memory.The experiment indicates that our proposed method outperforms the recent approaches on the evaluation metrics.

作者赵磊高联丽宋井宽 ZHAO Lei;GAO Lianli;SONG Jingkuan(School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu 611731)

机构地区电子科技大学计算机科学与工程学院

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第5期749-753,共5页 Journal of University of Electronic Science and Technology of China

关键词自适应注意力机制记忆网络视觉对话 adaptive attention mechanism memory network visual dialog

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1林奕欧,雷航,李晓瑜,吴佳.自然语言处理中的深度学习:方法及应用[J].电子科技大学学报,2017,46(6):913-919. 被引量：56

二级参考文献3

1余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：614
2奚雪峰,周国栋.基于Deep Learning的代词指代消解[J].北京大学学报（自然科学版）,2014,50(1):100-110. 被引量：23
3刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：261

共引文献55

1姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
2董志勇,邱瀚,陈泓运.智慧高速系统中大语言模型的集成与应用研究[J].中国交通信息化,2024(S01):67-71.
3王丽芬,王珏,洪燕,娄亚兵,简晖,吕爱平,查青林.融合脉诊信息的女性移动中医健康管理平台的研制[J].世界科学技术-中医药现代化,2018,20(10):1803-1807. 被引量：8
4薛亚非.面向自然语言处理的深度学习[J].电子技术与软件工程,2018(12):144-145. 被引量：7
5史加荣,马媛媛.深度学习的研究进展与发展[J].计算机工程与应用,2018,54(10):1-10. 被引量：49
6姜浩然,周萍,杨肖光.大众媒体视野下的“健康中国”——基于2016—2017年部分媒体报道的文本分析[J].中国卫生政策研究,2018,11(9):76-82. 被引量：2
7薛蕊,马小宁,李平,杨连报.自然语言处理关键技术在智能铁路中的应用研究[J].铁路计算机应用,2018,27(10):40-43. 被引量：4
8方明之.自然语言处理技术发展与未来[J].科技传播,2019,11(6):143-144. 被引量：15
9李猛,朱迎际,庄轶.基于自然语言技术的内部审计风险预警框架构建与应用——以NJ银行授信业务为例[J].中国内部审计,2019(6):4-9. 被引量：3
10杨传春,张冰雪,李仁德,郭强.基于LDA模型的网络刊物主题发现与聚类[J].上海理工大学学报,2019,41(3):273-280. 被引量：4

1健一,伊拉·戴维(图),彼得·胡加尔(图).莫伊拉·戴维(Moyra Davey) 美丽的破旧[J].摄影之友,2021(8):12-12.
2罗振海,李丹丹.阿立哌唑联合奥氮平治疗精神分裂症的效果及对患者认知功能的影响[J].中国现代药物应用,2021,15(17):224-226. 被引量：5
3王岩,曹现刚,张旭辉,樊红卫,段雍,霍小泉.基于知识图谱的采煤机智能维护知识库构建[J].工矿自动化,2021,47(7):29-36. 被引量：6
4严浩.计算机辅助翻译技术(CATT)在大学翻译教学中的应用[J].海外文摘,2021(9):75-76.
5费云,周衍芳,王学好,仝景慧,勾梦壮,杨甫德,田宝朋,谭云龙.首发精神分裂症患者非稳态负荷及其与认知损害的关系[J].中国心理卫生杂志,2021,35(10):814-819. 被引量：5

电子科技大学学报

2021年第5期

浏览历史

内容加载中请稍等...

面向视觉对话的自适应视觉记忆网络

参考文献1

二级参考文献3

共引文献55

相关作者

相关机构

相关主题

浏览历史