期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度双向模型和特征融合的视频转文字研究
被引量:
1
1
作者
宁培阳
史景伦
+1 位作者
张荣锋
邱威
《计算机应用研究》
CSCD
北大核心
2020年第1期317-320,共4页
自动生成视频的自然语言描述是一个非常具有挑战性的研究热点。基于深度BLSTM模型和CNN特征的方法,能够学习到视频序列的全局时空关联信息。针对视频转文字时面临的准确率低以及计算复杂度高的问题,提出了深度BMGU模型,从而在保持深度BL...
自动生成视频的自然语言描述是一个非常具有挑战性的研究热点。基于深度BLSTM模型和CNN特征的方法,能够学习到视频序列的全局时空关联信息。针对视频转文字时面临的准确率低以及计算复杂度高的问题,提出了深度BMGU模型,从而在保持深度BLSTM模型结构优势的同时提高计算效率;还将原始视频帧的CNN特征与经过Haar特征预处理后的视频的CNN特征进行后期融合,从而增加了训练特征的多样性,进而提升了视频转自然语言的实验效果。在M-VAD和MPII-MD数据集中,相对原S2VT模型,所提方法分别将METEOR分数从6.7和7.1提高到8.0和8.3。结果表明所提方法有效地改善了原S2VT模型的准确率和语言描述效果。
展开更多
关键词
视频转文字
深度双向模型
哈尔特征
特征融合
卷积神经网络
下载PDF
职称材料
题名
基于深度双向模型和特征融合的视频转文字研究
被引量:
1
1
作者
宁培阳
史景伦
张荣锋
邱威
机构
华南理工大学电子与信息学院
出处
《计算机应用研究》
CSCD
北大核心
2020年第1期317-320,共4页
基金
国家自然科学基金资助项目(61671213)
广州市人体数据科学重点实验室基金资助项目(201605030011).
文摘
自动生成视频的自然语言描述是一个非常具有挑战性的研究热点。基于深度BLSTM模型和CNN特征的方法,能够学习到视频序列的全局时空关联信息。针对视频转文字时面临的准确率低以及计算复杂度高的问题,提出了深度BMGU模型,从而在保持深度BLSTM模型结构优势的同时提高计算效率;还将原始视频帧的CNN特征与经过Haar特征预处理后的视频的CNN特征进行后期融合,从而增加了训练特征的多样性,进而提升了视频转自然语言的实验效果。在M-VAD和MPII-MD数据集中,相对原S2VT模型,所提方法分别将METEOR分数从6.7和7.1提高到8.0和8.3。结果表明所提方法有效地改善了原S2VT模型的准确率和语言描述效果。
关键词
视频转文字
深度双向模型
哈尔特征
特征融合
卷积神经网络
Keywords
video to text
deep bidirectional model
Haar feature
feature fusion
convolutional neural networks
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度双向模型和特征融合的视频转文字研究
宁培阳
史景伦
张荣锋
邱威
《计算机应用研究》
CSCD
北大核心
2020
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部