摘要
在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱。本工作设计了一种基于多尺度自适应注意力机制的视听语音分离网络,该网络联合人脸图像、嘴唇运动和面部地标这些视觉信息引导混合音频进行分离,并设计了一种交叉注意融合模块,该模块可以融合嘴唇运动特征和面部地标特征以得到增强且互补的视觉表示。此外,音频信息和视觉信息之间的相关性较弱,本文还设计了一种多尺度自适应注意力机制,并将其加入语音分离网络解码器中,使音频信息和对应的视觉信息更好地相互关联。实验结果验证了该方法的有效性。
出处
《人工智能》
2024年第3期1-14,共14页
Artificial Intelligence View
基金
国家自然科学青年科学基金(62102344)
安徽省重点研发项目(202304a05020056)
安徽省高校协同创新项目(GXXT-2022-036)。