期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多语义线索的跨模态视频检索算法 被引量:1
1
作者 丁洛 李逸凡 +3 位作者 于成龙 刘洋 王轩 漆舒汉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第3期596-604,共9页
针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择... 针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择性地关注视频数据的重要信息,获取数据的全局特征;采用双向门控循环单元(GRU)捕捉多模态数据内部上下文之间的交互特征;通过对局部数据之间的细微差别进行联合编码挖掘出视频和文本数据中的局部信息。通过数据的全局特征、上下文交互特征和局部特征构成多模态数据的多语义线索,更好地挖掘数据中的语义信息,进而提高检索效果。在此基础上,提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,提升了跨模态特征的学习效果。在MSR-VTT数据集上的实验表明:与当前最先进的方法比较,所提算法在文本检索视频任务上提高了11.1%;在MSVD数据集上的实验表明:与当前先进的方法比较,所提算法在文本检索视频任务上总召回率提高了5.0%。 展开更多
关键词 跨模态视频检索 多语义线索 多头目注意力机制 距离度量损失函数 模态
下载PDF
基于显著特征增强的跨模态视频片段检索 被引量:1
2
作者 杨金福 刘玉斌 +1 位作者 宋琳 闫雪 《电子与信息学报》 EI CSCD 北大核心 2022年第12期4395-4404,共10页
随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候... 随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候选视频片段的匹配,忽略了视频上下文的“语境”信息,在视频理解时,存在对特征关系表达不足的问题。针对此,该文提出一种基于显著特征增强的跨模态视频片段检索方法,通过构建时间相邻网络学习视频的上下文信息,然后使用轻量化残差通道注意力突出视频片段的显著特征,提升神经网络对视频语义的理解能力。在公开的数据集TACoS和ActivityNet Captions的实验结果表明,该文所提方法能更好地完成视频片段检索任务,比主流的基于匹配的方法和基于视频-文本特征关系的方法取得了更好的表现。 展开更多
关键词 模态视频片段检索 时间相邻网络 残差通道注意力 特征关系
下载PDF
基于视觉–文本关系对齐的跨模态视频片段检索 被引量:7
3
作者 陈卓 杜昊 +2 位作者 吴雨菲 徐童 陈恩红 《中国科学:信息科学》 CSCD 北大核心 2020年第6期862-876,共15页
近年来,视频数据资源的日益丰富催生了一系列对于视频片段精细检索的需求.在这样的背景下,对于跨模态视频片段检索的研究逐渐兴起,其旨在根据输入的查询文本,输出一段视频中符合文本描述的片段.现有的研究工作主要关注于查询文本与视频... 近年来,视频数据资源的日益丰富催生了一系列对于视频片段精细检索的需求.在这样的背景下,对于跨模态视频片段检索的研究逐渐兴起,其旨在根据输入的查询文本,输出一段视频中符合文本描述的片段.现有的研究工作主要关注于查询文本与视频片段的全局或局部的特征表达,而忽略了查询文本与视频片段中所蕴含的语义关系在跨模态检索中的匹配.例如,给定查询文本"一个人在打篮球"时,现有检索系统将根据整个查询文本和的视频的特征,或者关注于文本与视频中所表现的实体(如"人","篮球")来计算合适的视频片段,而缺乏对于"人打篮球"这类语义关系的考虑.因此,它们将难以辨别语义关系上的不同,从而限制了检索质量的提升.为了解决这个问题,本文提出跨模态关系对齐的图卷积框架CrossGraphAlign,通过分别构建文本关系图(textural relationship graph)与视觉关系图(visual relationship graph)来建模查询文本与视频片段中的语义关系,再通过跨模态对齐的图卷积网络来评估文本关系与视觉关系的相似度,从而帮助构建更加精准的视频片段检索系统.在公开的跨模态视频片段检索数据集TACoS和ActivityNet Captions上的实验结果表明,本文提出的方法可以有效地利用语义关系来提升跨模态视频片段检索的召回率. 展开更多
关键词 关系对齐 语言关系 视觉关系 图卷积网络 模态视频片段检索
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部