期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于多模态知识主动学习的视频问答方案
1
作者 刘明阳 王若梅 +1 位作者 周凡 林格 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期889-902,共14页
视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影... 视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性. 展开更多
关键词 视频问答 数据融合与推理 多模态主动学习 视频细节描述提取 深度学习
下载PDF
视频问答技术研究进展
2
作者 包翠竹 丁凯 +3 位作者 董建峰 杨勋 谢满德 王勋 《计算机研究与发展》 EI CSCD 北大核心 2024年第3期639-673,共35页
视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都... 视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都有着重大意义.VideoQA是一项具有挑战性的任务,因为它需要模型同时理解视频与文本内容来生成问题的答案.首先,分析了VideoQA与图像问答(image question answering,ImageQA)的区别,总结了当下VideoQA相对于ImageQA所面临的4个挑战;然后,围绕着这些挑战对目前现有VideoQA模型进行了细致的分类,并重点介绍了模型的实现及不同模型之间的关联;接着详细介绍了在VideoQA中常用的基准数据集及目前主流算法在部分数据集上的性能,并进行了对比与分析;最后,讨论了该领域未来面临的挑战和研究趋势,为未来进一步研究提供一些思路. 展开更多
关键词 视频问答 注意力 记忆网络 循环神经网络 图网络模型 预训练模型
下载PDF
嵌入局部聚类描述符的视频问答Transformer模型 被引量:1
3
作者 郭丹 姚沈涛 +1 位作者 王辉 汪萌 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期671-689,共19页
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结... 视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结果,模型首先必须捕获视频序列和复杂文本中包含的关键语义信息.本文提出了一种嵌入局部聚类描述符的视频问答Transformer模型,称为TVLAD-Net(Transformer Residual-less VLAD Network).TVLAD-Net主要包含一个端到端可训练的无残差局部聚合描述符模块(RVLAD,Residual-less Vec⁃tor of Local Aggregated Descriptor),以及一个统一的语义转换模块(Transformer).具体来说,RVLAD通过设置多个不同的聚类中心将视频和文本特征分别聚合为少量紧凑的局部聚类描述符;每个聚类描述符从全局角度分配及汇总了序列上权重不一的语义信息,相比于聚合前的视频帧特征或文本词特征具有更丰富的表征能力.Trans⁃former模块能够利用模态间的相互语义引导,实现多模态聚类描述符的语义交互,即采用多头注意力机制同时求解模态内和模态间的语义关联,进而避免了与所求解问题无关或者冗余的描述符语义单元的聚合.实验评估在TGIF-QA、MSVD-QA和MSRVTT-QA三个基准数据集上进行;实验结果表明本文方法能够实现先进的问答推理,在整体的评价指标上与现有方法相比有2%~5%的性能提升. 展开更多
关键词 视频问答 多模态数据 聚类描述符 自注意力变换网络 深度学习
下载PDF
基于自监督图对比学习的视频问答方法
4
作者 姚暄 高君宇 徐常胜 《软件学报》 EI CSCD 北大核心 2023年第5期2083-2100,共18页
视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但... 视频问答作为一种跨模态理解任务,在给定一段视频和与之相关的问题的条件下,需要通过不同模态语义信息之间的交互来产生问题的答案.近年来,由于图神经网络在跨模态信息融合与推理方面强大的能力,其在视频问答任务中取得了显著的进展.但是,大多数现有的图网络方法由于自身固有的过拟合或过平滑、弱鲁棒性和弱泛化性的缺陷使得视频问答模型的性能未能进一步提升.鉴于预训练技术中自监督对比学习方法的有效性和鲁棒性,在视频问答任务中利用图数据增强的思路提出了一种图网络自监督对比学习框架GMC.该框架使用针对节点和边的两种数据增强操作来生成相异子样本,并通过提升原样本与生成子样本图数据预测分布之间的一致性来提高视频问答模型的准确率和鲁棒性.在视频问答公开数据集上通过与现有先进的视频问答模型和不同GMC变体模型的实验对比验证了所提框架的有效性. 展开更多
关键词 图对比学习 视频问答 图数据增强 预训练
下载PDF
针对长视频问答的深度记忆融合模型 被引量:1
5
作者 孙广路 吴猛 +1 位作者 邱景 梁丽丽 《哈尔滨理工大学学报》 CAS 北大核心 2021年第1期1-8,共8页
长视频问答包含丰富的多模态语义信息和推理信息。当前,基于循环神经网络的视频问答模型难以充分保存重要记忆信息、忽略无关冗余信息和实现记忆信息高效融合。针对该问题,依据记忆网络思想,提出一种深度记忆融合模型。本模型利用记忆... 长视频问答包含丰富的多模态语义信息和推理信息。当前,基于循环神经网络的视频问答模型难以充分保存重要记忆信息、忽略无关冗余信息和实现记忆信息高效融合。针对该问题,依据记忆网络思想,提出一种深度记忆融合模型。本模型利用记忆网络的记忆组件有效保存视频剪辑及其字幕的融合特征,提出一种多模态相似性匹配方法过滤冗余记忆信息。经过卷积网络的初步融合和注意力机制的二次融合,生成整个视频的上下文表示,并进行答案生成。本模型在长视频剪辑MovieQA数据集上进行实验,平均准确率为39.78%,相较传统方法提升近10%且比当前最先进方法提升近5%,准确率提升明显,模型泛化性能好。 展开更多
关键词 视频问答 视频理解 记忆网络 注意力机制 多模态融合
下载PDF
利用全局与局部帧级特征进行基于共享注意力的视频问答 被引量:1
6
作者 王雷全 候文艳 +3 位作者 袁韶祖 赵欣 林瑶 吴春雷 《计算机科学》 CSCD 北大核心 2021年第8期145-149,共5页
视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获... 视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获得高质量的答案。文中提出了一个通过利用局部和全局帧级别的视觉信息来进行视频问答的多共享注意力网络。具体来说,以不同帧率提取视频帧,并以此提取帧级的全局与局部视觉特征,这两种特征包含了多个帧级别特征,用于对视频时间动态建模,再以共享注意力的形式建模全局与局部视觉特征的相关性,然后结合文本问题来推断答案。在天池视频问答数据集上进行了大量的实验,验证了所提方法的有效性。 展开更多
关键词 视频问答 共享注意力机制 全局和局部帧级特征
下载PDF
MSAM:针对视频问答的多阶段注意力模型 被引量:1
7
作者 梁丽丽 刘昕雨 +1 位作者 孙广路 朱素霞 《哈尔滨理工大学学报》 CAS 北大核心 2022年第4期107-117,共11页
视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前,基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题,提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视... 视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前,基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题,提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视频、音频以及文本等多模态特征输入到多阶段注意力模型(MSAM)中,通过逐阶段的定位方式精准找到与回答问题相关的视频信息,用于答案生成。为了提高特征融合的有效性,提出一种三模态压缩级联双线性(TCCB)算法计算不同模态特征之间的相关性。MASMN在ZJL数据集上进行实验,平均准确率均为54.3%,比传统方法提高了近15%,比现有方法提高了近7%。 展开更多
关键词 视频问答 多阶段注意力模型 多模态特征融合
下载PDF
基于先验MASK注意力机制的视频问答方案 被引量:2
8
作者 许振雷 董洪伟 《计算机工程》 CAS CSCD 北大核心 2021年第2期52-59,共8页
视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中。在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽... 视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中。在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽与问题无关的答案,从而增强模型的可解释性。实验结果表明,该模型在视频问答任务中的准确率达到61%,与VQA+、SA+等视频问答模型相比,其具有更快的预测速度以及更好的预测效果。 展开更多
关键词 视频问答 计算机视觉 自然语言处理 注意力机制 MASK模型
下载PDF
基于视频描述和阅读理解的视频问答研究
9
作者 胡锦祥 孟朝晖 《计算机应用研究》 CSCD 北大核心 2021年第12期3781-3785,共5页
针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互。提出方法将视频特征... 针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互。提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案。在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务。 展开更多
关键词 视频问答 视频描述 阅读理解
下载PDF
基于视觉和语言的跨媒体问答与推理研究综述 被引量:3
10
作者 武阿明 姜品 韩亚洪 《计算机科学》 CSCD 北大核心 2021年第3期71-78,共8页
基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答... 基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。 展开更多
关键词 跨媒体问答与推理 图像问答与推理 视频问答与推理 视觉常识问答与推理 多模态融合 注意力机制 预训练
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部