期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
视频与音频特征融合生成动作指令组的方法研究
1
作者 林大润 陈俊洪 +2 位作者 王思涵 钟经谋 刘文印 《计算机应用与软件》 北大核心 2023年第7期132-138,144,共8页
为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征... 为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块。视频特征提取网络模块使用I3D网络结构提取视频特征;音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征;特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明,所提出的音视频特征融合网络能达到74.92%的准确率,且具有较强的鲁棒性。 展开更多
关键词 动作三元组 特征融合 I3D 卷积神经网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部