期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Conv-TasNet的多特征融合音视频联合语音分离算法 被引量:6
1
作者 徐亮 王晶 +1 位作者 杨文镜 罗逸雨 《信号处理》 CSCD 北大核心 2021年第10期1799-1805,共7页
视听多模态建模已被验证在与语音分离的任务中性能表现优异,本文提出一种语音分离模型,对现有的时域音视频联合语音分离算法进行改进,增强音视频流之间的联系。针对现有音视频分离模型联合度不高的情况,作者提出一种在时域上将语音特征... 视听多模态建模已被验证在与语音分离的任务中性能表现优异,本文提出一种语音分离模型,对现有的时域音视频联合语音分离算法进行改进,增强音视频流之间的联系。针对现有音视频分离模型联合度不高的情况,作者提出一种在时域上将语音特征与额外输入的视觉特征进行多次融合,并加入纵向权值共享的端到端的语音分离模型。在GRID数据集上的实验结果表明,该网络与仅使用音频的时域语音卷积分离网络(Conv-TasNet)和音视频联合的Conv-TasNet相比,性能上分别获得了1.2 dB和0.4 dB的改善。 展开更多
关键词 语音分离 深度神经网络 多特征融合 音视频联合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部