期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
嵌入局部聚类描述符的视频问答Transformer模型 被引量:1
1
作者 郭丹 姚沈涛 +1 位作者 王辉 汪萌 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期671-689,共19页
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结... 视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结果,模型首先必须捕获视频序列和复杂文本中包含的关键语义信息.本文提出了一种嵌入局部聚类描述符的视频问答Transformer模型,称为TVLAD-Net(Transformer Residual-less VLAD Network).TVLAD-Net主要包含一个端到端可训练的无残差局部聚合描述符模块(RVLAD,Residual-less Vec⁃tor of Local Aggregated Descriptor),以及一个统一的语义转换模块(Transformer).具体来说,RVLAD通过设置多个不同的聚类中心将视频和文本特征分别聚合为少量紧凑的局部聚类描述符;每个聚类描述符从全局角度分配及汇总了序列上权重不一的语义信息,相比于聚合前的视频帧特征或文本词特征具有更丰富的表征能力.Trans⁃former模块能够利用模态间的相互语义引导,实现多模态聚类描述符的语义交互,即采用多头注意力机制同时求解模态内和模态间的语义关联,进而避免了与所求解问题无关或者冗余的描述符语义单元的聚合.实验评估在TGIF-QA、MSVD-QA和MSRVTT-QA三个基准数据集上进行;实验结果表明本文方法能够实现先进的问答推理,在整体的评价指标上与现有方法相比有2%~5%的性能提升. 展开更多
关键词 视频问答 多模态数据 聚类描述符 自注意力变换网络 深度学习
下载PDF
基于局部描述符聚类的关联书目智能检索仿真 被引量:1
2
作者 黄宇 《计算机仿真》 北大核心 2019年第7期347-350,384,共5页
针对传统的关联书目检索方法存在检索消耗代价比较高、检索时间过长、相对误差较大等问题,提出了一种基于局部描述符聚类的关联书目智能检索方法。分析当前云计算环境下的关联书目结构模型,计算关联书目的离散样本频谱特征,完成关联书... 针对传统的关联书目检索方法存在检索消耗代价比较高、检索时间过长、相对误差较大等问题,提出了一种基于局部描述符聚类的关联书目智能检索方法。分析当前云计算环境下的关联书目结构模型,计算关联书目的离散样本频谱特征,完成关联书目矩阵描述符聚类。引用模糊集算法准确查询聚类关联书目的局部描述符,对经过聚类的数据进行二次聚类计算,将其类边缘进行细分,根据加载判别函数实现关联书目的定位,完成基于局部描述符聚类的关联书目智能检索。实验结果表明,所提方法在进行关联书目检索时,检索时间较短、误差较小,检索代价消耗比较低。 展开更多
关键词 局部描述符 关联书目 智能检索
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部