期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
嵌入局部聚类描述符的视频问答Transformer模型
被引量:
1
1
作者
郭丹
姚沈涛
+1 位作者
王辉
汪萌
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第4期671-689,共19页
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结...
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结果,模型首先必须捕获视频序列和复杂文本中包含的关键语义信息.本文提出了一种嵌入局部聚类描述符的视频问答Transformer模型,称为TVLAD-Net(Transformer Residual-less VLAD Network).TVLAD-Net主要包含一个端到端可训练的无残差局部聚合描述符模块(RVLAD,Residual-less Vec⁃tor of Local Aggregated Descriptor),以及一个统一的语义转换模块(Transformer).具体来说,RVLAD通过设置多个不同的聚类中心将视频和文本特征分别聚合为少量紧凑的局部聚类描述符;每个聚类描述符从全局角度分配及汇总了序列上权重不一的语义信息,相比于聚合前的视频帧特征或文本词特征具有更丰富的表征能力.Trans⁃former模块能够利用模态间的相互语义引导,实现多模态聚类描述符的语义交互,即采用多头注意力机制同时求解模态内和模态间的语义关联,进而避免了与所求解问题无关或者冗余的描述符语义单元的聚合.实验评估在TGIF-QA、MSVD-QA和MSRVTT-QA三个基准数据集上进行;实验结果表明本文方法能够实现先进的问答推理,在整体的评价指标上与现有方法相比有2%~5%的性能提升.
展开更多
关键词
视频问答
多模态数据
聚类描述符
自注意力变换网络
深度学习
下载PDF
职称材料
基于局部描述符聚类的关联书目智能检索仿真
被引量:
1
2
作者
黄宇
《计算机仿真》
北大核心
2019年第7期347-350,384,共5页
针对传统的关联书目检索方法存在检索消耗代价比较高、检索时间过长、相对误差较大等问题,提出了一种基于局部描述符聚类的关联书目智能检索方法。分析当前云计算环境下的关联书目结构模型,计算关联书目的离散样本频谱特征,完成关联书...
针对传统的关联书目检索方法存在检索消耗代价比较高、检索时间过长、相对误差较大等问题,提出了一种基于局部描述符聚类的关联书目智能检索方法。分析当前云计算环境下的关联书目结构模型,计算关联书目的离散样本频谱特征,完成关联书目矩阵描述符聚类。引用模糊集算法准确查询聚类关联书目的局部描述符,对经过聚类的数据进行二次聚类计算,将其类边缘进行细分,根据加载判别函数实现关联书目的定位,完成基于局部描述符聚类的关联书目智能检索。实验结果表明,所提方法在进行关联书目检索时,检索时间较短、误差较小,检索代价消耗比较低。
展开更多
关键词
局部
描述符
聚
类
关联书目
智能检索
下载PDF
职称材料
题名
嵌入局部聚类描述符的视频问答Transformer模型
被引量:
1
1
作者
郭丹
姚沈涛
王辉
汪萌
机构
合肥工业大学计算机与信息学院
合肥综合性国家科学中心人工智能研究院
大数据知识工程教育部重点实验室(合肥工业大学)
智能互联系统安徽省实验室(合肥工业大学)
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第4期671-689,共19页
基金
国家自然科学基金(Nos.62272144,U20A20183,62020106007,72188101)
安徽省科技重大专项(No.202203a05020011)资助.
文摘
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结果,模型首先必须捕获视频序列和复杂文本中包含的关键语义信息.本文提出了一种嵌入局部聚类描述符的视频问答Transformer模型,称为TVLAD-Net(Transformer Residual-less VLAD Network).TVLAD-Net主要包含一个端到端可训练的无残差局部聚合描述符模块(RVLAD,Residual-less Vec⁃tor of Local Aggregated Descriptor),以及一个统一的语义转换模块(Transformer).具体来说,RVLAD通过设置多个不同的聚类中心将视频和文本特征分别聚合为少量紧凑的局部聚类描述符;每个聚类描述符从全局角度分配及汇总了序列上权重不一的语义信息,相比于聚合前的视频帧特征或文本词特征具有更丰富的表征能力.Trans⁃former模块能够利用模态间的相互语义引导,实现多模态聚类描述符的语义交互,即采用多头注意力机制同时求解模态内和模态间的语义关联,进而避免了与所求解问题无关或者冗余的描述符语义单元的聚合.实验评估在TGIF-QA、MSVD-QA和MSRVTT-QA三个基准数据集上进行;实验结果表明本文方法能够实现先进的问答推理,在整体的评价指标上与现有方法相比有2%~5%的性能提升.
关键词
视频问答
多模态数据
聚类描述符
自注意力变换网络
深度学习
Keywords
video question answering
multi-modal data
aggregated descriptors
transformer network
deep learning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于局部描述符聚类的关联书目智能检索仿真
被引量:
1
2
作者
黄宇
机构
湖北工业大学图书馆
出处
《计算机仿真》
北大核心
2019年第7期347-350,384,共5页
基金
湖北省高校图工委基金项目(2017YB05)
文摘
针对传统的关联书目检索方法存在检索消耗代价比较高、检索时间过长、相对误差较大等问题,提出了一种基于局部描述符聚类的关联书目智能检索方法。分析当前云计算环境下的关联书目结构模型,计算关联书目的离散样本频谱特征,完成关联书目矩阵描述符聚类。引用模糊集算法准确查询聚类关联书目的局部描述符,对经过聚类的数据进行二次聚类计算,将其类边缘进行细分,根据加载判别函数实现关联书目的定位,完成基于局部描述符聚类的关联书目智能检索。实验结果表明,所提方法在进行关联书目检索时,检索时间较短、误差较小,检索代价消耗比较低。
关键词
局部
描述符
聚
类
关联书目
智能检索
Keywords
Local descriptor clustering
Associated bibliography
Intelligent retrieval
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
嵌入局部聚类描述符的视频问答Transformer模型
郭丹
姚沈涛
王辉
汪萌
《计算机学报》
EI
CAS
CSCD
北大核心
2023
1
下载PDF
职称材料
2
基于局部描述符聚类的关联书目智能检索仿真
黄宇
《计算机仿真》
北大核心
2019
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部