-
题名基于并行多注意力的语音增强网络
- 1
-
-
作者
张池
王忠
姜添豪
谢康民
-
机构
四川大学电气工程学院
国网浙江省电力有限公司温州供电公司
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第4期68-77,共10页
-
基金
四川省科技厅支撑计划(2015FZ061)
四川省教育厅2018年度自然科学重点科研项目(18ZA0307)。
-
文摘
针对受干扰语音的频域增强问题,提出一种基于并行多注意力机制和编解码结构的语音增强网络(PMAN)。网络输入经过短时傅里叶变换(STFT)的语音频域特征,包含振幅谱和复数谱,编码器使用密集卷积模块对输入数据信息进行整合,中间层的并行多注意力模块学习频域的局部和全局信息,并融合局部块注意力(LPA)机制捕捉语音频域二维(2D)结构,实现干净语音与干扰因素的2D层面分离。解码器将学习到的信息进行整合,分别生成振幅掩模和复数频谱,根据加权求和生成最终的语音复数频谱,使用时域与频域联合损失函数实现相位信息的融合。在VoicеBank+DEMAND语音数据集上的实验结果表明,与基于两阶段变换器的时域语音增强神经网络(TSTNN)相比,经过PMAN增强后语音的客观语音质量评价(PESQ)、短时客观可懂度(STOI)、分段信噪比(SSNR)指标值分别提升10.8%、1.1%、11.8%,具有较好的语音增强效果。
-
关键词
语音增强
频域
多注意力机制
Transformer网络
并行模块
-
Keywords
speech enhancement
frequency-domain
multi-attention mechanism
Transformer network
parallel module
-
分类号
TN912.35
[电子电信—通信与信息系统]
-