基于多尺度自适应注意力机制的视听语音分离

下载PDF

导出

摘要在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱。本工作设计了一种基于多尺度自适应注意力机制的视听语音分离网络,该网络联合人脸图像、嘴唇运动和面部地标这些视觉信息引导混合音频进行分离,并设计了一种交叉注意融合模块,该模块可以融合嘴唇运动特征和面部地标特征以得到增强且互补的视觉表示。此外,音频信息和视觉信息之间的相关性较弱,本文还设计了一种多尺度自适应注意力机制,并将其加入语音分离网络解码器中,使音频信息和对应的视觉信息更好地相互关联。实验结果验证了该方法的有效性。

作者吴亮王甲祥施汉琴郑爱华盛小飞

机构地区安徽大学计算机科学与技术学院徐州工程学院信息工程学院安徽大学人工智能学院芜湖辛巴网络科技有限公司

出处《人工智能》 2024年第3期1-14,共14页 Artificial Intelligence View

基金国家自然科学青年科学基金(62102344) 安徽省重点研发项目(202304a05020056) 安徽省高校协同创新项目(GXXT-2022-036)。

关键词语音分离多模态注意力机制视听相关性

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

1屠彦辉,霍伟明,高建清,王海坤,马峰,殷兵,王瑞,付中华,樊其锋.基于多模态波束方向特征的多模语音分离及识别[J].人工智能,2024(3):36-44.
2李卓璋,许柏炎,蔡瑞初,郝志峰.说话人感知的交叉注意力说话人提取网络[J].广东工业大学学报,2024,41(3):91-101.
3曾援,李剑,马明星,庞润嘉,贺斌.基于改进Transformer模型的多声源分离方法[J].计算机技术与发展,2024,34(5):60-65.

人工智能

2024年第3期

浏览历史

内容加载中请稍等...

基于多尺度自适应注意力机制的视听语音分离

相关作者

相关机构

相关主题

浏览历史