-
题名基于门控膨胀卷积循环网络的单声道语音增强
- 1
-
-
作者
尤昕源
王恒
-
机构
武汉轻工大学数学与计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2024年第4期1317-1324,共8页
-
基金
湖北省教育厅科学研究计划重点项目(D20201601)
武汉工程大学智能机器人湖北省重点实验室开放基金资助项目(HBIR202101)。
-
文摘
上下文信息的使用在语音增强任务中具有重要作用。针对全局语音利用不充分的问题,提出一种用于复数频谱映射的门控膨胀卷积循环网络(GDCRN)。GDCRN包含编码器、门控时间卷积模块(GTCM)和解码器这3部分,编码器和解码器是非对称的网络结构。首先,编码器利用门控膨胀卷积模块(GDCM)扩大感受野,处理特征;其次,使用GTCM捕获更长的上下文信息,并选择性传递特征;最后,解码器使用结合门控线性单元(GLU)的反卷积,反卷积与编码器中对应层的卷积层使用跳跃连接,并引入通道时频注意力(CTFA)机制。实验结果表明,相较于时间卷积神经网络(TCNN)、门控卷积循环网络(GCRN)等网络,所提网络的参数量和训练时间更少,客观语音质量评估(PESQ)和短时客观可懂度(STOI)都有显著改善,最高可提升0.2589和4.67个百分点,具有更好的增强效果与更强的泛化能力。
-
关键词
语音增强
复数频谱映射
膨胀卷积
门控机制
注意力机制
-
Keywords
speech enhancement
complex spectral mapping
dilated convolution
gating mechanism
attention mechanism
-
分类号
TN912.35
[电子电信—通信与信息系统]
-