期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多尺度自适应注意力机制的视听语音分离
1
作者 吴亮 王甲祥 +2 位作者 施汉琴 郑爱华 盛小飞 《人工智能》 2024年第3期1-14,共14页
在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱。本工作设计了一... 在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱。本工作设计了一种基于多尺度自适应注意力机制的视听语音分离网络,该网络联合人脸图像、嘴唇运动和面部地标这些视觉信息引导混合音频进行分离,并设计了一种交叉注意融合模块,该模块可以融合嘴唇运动特征和面部地标特征以得到增强且互补的视觉表示。此外,音频信息和视觉信息之间的相关性较弱,本文还设计了一种多尺度自适应注意力机制,并将其加入语音分离网络解码器中,使音频信息和对应的视觉信息更好地相互关联。实验结果验证了该方法的有效性。 展开更多
关键词 语音分离 多模态 注意力机制 视听相关性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部