期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
视频与音频特征融合生成动作指令组的方法研究
1
作者
林大润
陈俊洪
+2 位作者
王思涵
钟经谋
刘文印
《计算机应用与软件》
北大核心
2023年第7期132-138,144,共8页
为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征...
为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块。视频特征提取网络模块使用I3D网络结构提取视频特征;音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征;特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明,所提出的音视频特征融合网络能达到74.92%的准确率,且具有较强的鲁棒性。
展开更多
关键词
动作三元组
特征融合
I3D
卷积神经网络
下载PDF
职称材料
题名
视频与音频特征融合生成动作指令组的方法研究
1
作者
林大润
陈俊洪
王思涵
钟经谋
刘文印
机构
广东工业大学计算机学院
出处
《计算机应用与软件》
北大核心
2023年第7期132-138,144,共8页
基金
国家自然科学基金项目(91748107,61703109)
广东省引进创新科研团队计划项目(2014ZT05G157)
广东省科技创新战略专项资金项目(pdjh2020a0173)。
文摘
为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块。视频特征提取网络模块使用I3D网络结构提取视频特征;音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征;特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明,所提出的音视频特征融合网络能达到74.92%的准确率,且具有较强的鲁棒性。
关键词
动作三元组
特征融合
I3D
卷积神经网络
Keywords
action command triplet
Feature fusion
I3D
Convolutional neural networks
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
TP242.63 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
视频与音频特征融合生成动作指令组的方法研究
林大润
陈俊洪
王思涵
钟经谋
刘文印
《计算机应用与软件》
北大核心
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部