基于多模态知识主动学习的视频问答方案

Video Question Answering Scheme Base on Multimodal Knowledge Active Learning

下载PDF

导出

摘要视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性. Video question answering requires models to understand,fuse,and reason about the multimodal data in videos to assist people in quickly retrieving,analyzing,and summarizing complex scenes in videos,becoming a hot research topic in artificial intelligence.However,existing methods lack abilities of obtaining the motion details of visual objects in feature extraction,which may lead to false causality.In addition,in data fusion and reasoning,existing methods lack effective active learning ability,making it difficult to obtain prior knowledge beyond feature extraction,which affects the model’s deep understanding of multimodal content.To address these issues,we propose a multimodal knowledge-based active learning video question answering solution.The solution acquires the semantic correlation of visual targets in image sequences and the dynamic relationship with the surrounding environment to establish the motion trajectory of each visual target.Further,static content is supplemented with dynamic content to provide more accurate video feature expression for data fusion and reasoning.Then,the solution achieves selfimprovement and logical thinking focus of multimodal information understanding through knowledge autoenhancement multimodal data fusion and reasoning model,filling the gap in deep understanding of multimodal content.Experimental results show that the performance of our scheme is better than the most advanced video question answering algorithm,and a large number of ablation and visualization experiments also verify the rationality of this solution.

作者刘明阳王若梅周凡林格 Liu Mingyang;Wang Ruomei;Zhou Fan;Lin Ge(National Engineering Research Center of Digital Life,School of Computer Science and Engineering,Sun Yat-sen University,Guangzhou 510006)

机构地区中山大学计算机学院国家数字家庭工程技术研究中心

出处《计算机研究与发展》 EI CSCD 北大核心 2024年第4期889-902,共14页 Journal of Computer Research and Development

基金国家重点研发计划项目(2021YFF0900900)。

关键词视频问答数据融合与推理多模态主动学习视频细节描述提取深度学习 video question answering data fusion and reasoning multimodal active learning video details description extraction deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1俞俊,汪亮,余宙.视觉问答技术研究[J].计算机研究与发展,2018,55(9):1946-1958. 被引量：21
2张璐,曹峰,梁新彦,钱宇华.基于关联特征传播的跨模态检索[J].计算机研究与发展,2022,59(9):1993-2002. 被引量：2
3李志欣,魏海洋,张灿龙,马慧芳,史忠植.图像描述生成研究进展[J].计算机研究与发展,2021,58(9):1951-1974. 被引量：7

二级参考文献12

1张鸿,吴飞,庄越挺.跨媒体相关性推理与检索研究[J].计算机研究与发展,2008,45(5):869-876. 被引量：20
2李志欣,施智平,李志清,史忠植.图像检索中语义映射方法综述[J].计算机辅助设计与图形学学报,2008,20(8):1085-1096. 被引量：36
3吴飞,庄越挺.互联网跨媒体分析与检索:理论与算法[J].计算机辅助设计与图形学学报,2010,22(1):1-9. 被引量：34
4李志欣,施智平,李志清,史忠植.融合语义主题的图像自动标注[J].软件学报,2011,22(4):801-812. 被引量：50
5易剑,彭宇新,肖建国.基于颜色聚类和多帧融合的视频文字识别方法[J].软件学报,2011,22(12):2919-2933. 被引量：22
6周亦鹏,杨月华,梁美玉,杜军平.跨媒体主题分析及应用研究[J].计算机仿真,2012,29(6):1-4. 被引量：1
7王树徽,黄庆明.异质媒体分析技术研究进展[J].集成技术,2015,4(2):7-21. 被引量：2
8卢汉清,刘静,黄萱菁.跨媒体分析的理论和方法[J].科技创新导报,2016,13(1):173-174. 被引量：1
9彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：32
10钱宇华,张明星,成红红.关联学习:关联关系挖掘新视角[J].计算机研究与发展,2020,57(2):424-432. 被引量：5

共引文献27

1谭雅苧,李倩,王建标.视觉智能发展与应用[J].电子技术与软件工程,2019(8):240-241.
2李胜东,吕学强.基于图片问答的静态重启随机梯度下降算法[J].计算机研究与发展,2019,56(5):1092-1100. 被引量：5
3林欣,田鑫,季怡,徐云龙,刘纯平.一种残差置乱上下文信息的场景图生成方法[J].计算机研究与发展,2019,56(8):1721-1730. 被引量：3
4沈明珠,刘辉.面向技术论坛的问题解答状态预测[J].计算机研究与发展,2020,57(3):474-486. 被引量：3
5吴玥,高会议,陈雷,曾明昭,万莉.基于动态记忆网络的智能视觉问答系统的设计与实现[J].仪表技术,2020(5):18-22.
6邓硙,汪剑鸣,金光浩.基于Yes/No反馈的视觉问答方法[J].模式识别与人工智能,2020,33(11):1043-1053.
7牛磊,赵佳.卷积神经网络中优化算法性能比较研究[J].阜阳师范大学学报（自然科学版）,2020,37(4):66-70. 被引量：3
8王青青,郭星晨,王亚.面向深度学习的视觉问答技术的分析[J].阜阳师范大学学报（自然科学版）,2020,37(4):71-76. 被引量：1
9赵佳.基于百度AI平台的人工智能类课程教学实践探索[J].阜阳师范大学学报（自然科学版）,2020,37(4):112-115. 被引量：14
10牛玉磊,张含望.视觉问答与对话综述[J].计算机科学,2021,48(3):87-96. 被引量：11

1许莹.新时代下高校网络思想政治教育路径创新探索[J].智库时代,2023(29):0136-0139.
2马腾,蒲晓珉,边晓光,张哲豪.汽轮发电机组维修手册及可视化研究[J].东方电气评论,2024,38(2):69-74.
3陈天平.问题解决教学法在初中语文大单元教学中的应用探讨[J].成才之路,2024(8):137-140.
42024年1月碳排放权交易市场动态[J].造纸信息,2024(2):18-20.
5陈堆.小学高段语文学科大单元教学设计的实践与应用[J].亚太教育,2024(4):118-121.
6付鹏斌,徐宇,杨惠荣.基于多尺度特征融合的互学习脱机手写数学公式识别[J].华南理工大学学报（自然科学版）,2024,52(2):23-31.
7陈艳,吉宏斌,高婷婷.基于SCD模型的智能变电站接线图自动生成系统[J].自动化与仪表,2024,39(3):137-141.

计算机研究与发展

2024年第4期

浏览历史

内容加载中请稍等...

基于多模态知识主动学习的视频问答方案

参考文献3

二级参考文献12

共引文献27

相关作者

相关机构

相关主题

浏览历史