-
题名基于显著特征增强的跨模态视频片段检索
被引量:1
- 1
-
-
作者
杨金福
刘玉斌
宋琳
闫雪
-
机构
北京工业大学信息学部
计算智能与智能系统北京市重点实验室
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2022年第12期4395-4404,共10页
-
基金
国家自然科学基金(61973009)。
-
文摘
随着视频获取设备和技术的不断发展,视频数量增长快速,在海量视频中精准查找目标视频片段是具有挑战的任务。跨模态视频片段检索旨在根据输入一段查询文本,模型能够从视频库中找出符合描述的视频片段。现有的研究工作多是关注文本与候选视频片段的匹配,忽略了视频上下文的“语境”信息,在视频理解时,存在对特征关系表达不足的问题。针对此,该文提出一种基于显著特征增强的跨模态视频片段检索方法,通过构建时间相邻网络学习视频的上下文信息,然后使用轻量化残差通道注意力突出视频片段的显著特征,提升神经网络对视频语义的理解能力。在公开的数据集TACoS和ActivityNet Captions的实验结果表明,该文所提方法能更好地完成视频片段检索任务,比主流的基于匹配的方法和基于视频-文本特征关系的方法取得了更好的表现。
-
关键词
跨模态视频片段检索
时间相邻网络
残差通道注意力
特征关系
-
Keywords
Cross-modal video moment retrieval
Temporal adjacent network
Residual channel attention
Feature relationship
-
分类号
TN911.73
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于视觉–文本关系对齐的跨模态视频片段检索
被引量:7
- 2
-
-
作者
陈卓
杜昊
吴雨菲
徐童
陈恩红
-
机构
中国科学技术大学大数据分析与应用安徽省重点实验室
-
出处
《中国科学:信息科学》
CSCD
北大核心
2020年第6期862-876,共15页
-
基金
国家重点研发计划(批准号:2018YFB1004300)
国家自然科学基金(批准号:61703386,U1605251)资助项目。
-
文摘
近年来,视频数据资源的日益丰富催生了一系列对于视频片段精细检索的需求.在这样的背景下,对于跨模态视频片段检索的研究逐渐兴起,其旨在根据输入的查询文本,输出一段视频中符合文本描述的片段.现有的研究工作主要关注于查询文本与视频片段的全局或局部的特征表达,而忽略了查询文本与视频片段中所蕴含的语义关系在跨模态检索中的匹配.例如,给定查询文本"一个人在打篮球"时,现有检索系统将根据整个查询文本和的视频的特征,或者关注于文本与视频中所表现的实体(如"人","篮球")来计算合适的视频片段,而缺乏对于"人打篮球"这类语义关系的考虑.因此,它们将难以辨别语义关系上的不同,从而限制了检索质量的提升.为了解决这个问题,本文提出跨模态关系对齐的图卷积框架CrossGraphAlign,通过分别构建文本关系图(textural relationship graph)与视觉关系图(visual relationship graph)来建模查询文本与视频片段中的语义关系,再通过跨模态对齐的图卷积网络来评估文本关系与视觉关系的相似度,从而帮助构建更加精准的视频片段检索系统.在公开的跨模态视频片段检索数据集TACoS和ActivityNet Captions上的实验结果表明,本文提出的方法可以有效地利用语义关系来提升跨模态视频片段检索的召回率.
-
关键词
关系对齐
语言关系
视觉关系
图卷积网络
跨模态视频片段检索
-
Keywords
relationship alignment
textual relationship
visual relationship
graph convolutional network
crossmodal video moment retrieval
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-