-
题名基于时频感知双路径Conformer的语音增强
- 1
-
-
作者
芮阳
高勇
-
机构
四川大学
-
出处
《通信技术》
2024年第4期338-346,共9页
-
文摘
近年来,Conformer在语音领域的应用表现较为突出。该模块通过结合多头自注意力机制和卷积神经网络,能够同时关注短时和长时序列信息,从而在语音处理任务中表现出卓越的性能。在此基础上提出了一种基于时频感知双路径Conformer的语音增强网络(TFDPCNet)。首先,该网络将改进的Conformer结构作为核心,采用双路径结构,构成时频感知的双路径Conformer模块(TFDP-Conformer),增强了整体网络的时频提取能力;同时,为了减小时频特征融合的难度,提出了注意力门控交叉融合模块(AGCF),通过额外的注意力门进一步增强了网络训练过程中时频特征的交互,提高了时频特征的利用率;最后,引用度量鉴别器,并对其进行适当剪枝,使得增强后的音频和原始音频在量化评价指标上保持更高的一致性。实验结果表明,相比于TSTNN算法,TFDPCNet在主观和客观指标上都有明显提高。
-
关键词
语音增强
双路径Conformer
时频域
注意力门控交叉融合
度量鉴别器
-
Keywords
speech enhancement
dual-path Conformer
time-frequency domain
attention gated cross fusion
metric discriminator
-
分类号
TN912.35
[电子电信—通信与信息系统]
-