基于并行多注意力的语音增强网络

Speech Enhancement Network Based on Parallel Multi-Attention

下载PDF

导出

摘要针对受干扰语音的频域增强问题,提出一种基于并行多注意力机制和编解码结构的语音增强网络(PMAN)。网络输入经过短时傅里叶变换(STFT)的语音频域特征,包含振幅谱和复数谱,编码器使用密集卷积模块对输入数据信息进行整合,中间层的并行多注意力模块学习频域的局部和全局信息,并融合局部块注意力(LPA)机制捕捉语音频域二维(2D)结构,实现干净语音与干扰因素的2D层面分离。解码器将学习到的信息进行整合,分别生成振幅掩模和复数频谱,根据加权求和生成最终的语音复数频谱,使用时域与频域联合损失函数实现相位信息的融合。在VoicеBank+DEMAND语音数据集上的实验结果表明,与基于两阶段变换器的时域语音增强神经网络(TSTNN)相比,经过PMAN增强后语音的客观语音质量评价(PESQ)、短时客观可懂度(STOI)、分段信噪比(SSNR)指标值分别提升10.8%、1.1%、11.8%,具有较好的语音增强效果。 Regarding the issue of the frequency-domain enhancement of speech affected by interference,a speech enhancement network based on a parallel multi-attention mechanism and an encoding and decoding structure,known as PMAN,is proposed.The network uses speech frequency-domain features obtained through a Short-Time Fourier Transform(STFT),including amplitude and complex spectra.The encoder integrates input data using dense convolutional modules.The parallel multi-attention module of the intermediate layer learns both local and global information in the frequency-domain and incorporates a Local Patch Attention(LPA)mechanism to capture the Two-Dimensional(2D)structure of the speech frequency-domain,achieving separation between clean speech and interference factors in the 2D space.The decoder integrates the learned information and generates amplitude masks and complex spectra separately.The final speech complex spectrum is obtained via weighted summation,and a joint time-and frequency-domain loss function is used to fuse the phase information.Experimental results on the VoiceBank+DEMAND speech dataset demonstrate that PMAN achieves better speech enhancement performance than a time-domain speech enhancement Neural Network based on a Two-Stage Transformer(TSTNN),with improvements of 10.8%in Perceptual Evaluation of Speech Quality(PESQ),1.1%in Short-Time Objective Intelligibility(STOI),and 11.8%in Segmental Signal-to-Noise Ratio(SSNR).

作者张池王忠姜添豪谢康民 ZHANG Chi;WANG Zhong;JIANG Tianhao;XIE Kangmin(College of Electrical Engineering,Sichuan University,Chengdu 610065,Sichuan,China;Wenzhou Power Supply Company,State Grid Zhejiang Electric Power Co.,Ltd.,Wenzhou 325029,Zhejiang,China)

机构地区四川大学电气工程学院国网浙江省电力有限公司温州供电公司

出处《计算机工程》 CAS CSCD 北大核心 2024年第4期68-77,共10页 Computer Engineering

基金四川省科技厅支撑计划(2015FZ061) 四川省教育厅2018年度自然科学重点科研项目(18ZA0307)。

关键词语音增强频域多注意力机制 Transformer网络并行模块 speech enhancement frequency-domain multi-attention mechanism Transformer network parallel module

分类号 TN912.35 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1张雄伟,李毅豪,孙蒙,张强.单通道语音增强中深度学习方法研究现状与展望[J].陆军工程大学学报,2022,1(5):1-12. 被引量：6
2沈学利,田桂源,姜彦吉,马琳琳.基于双阶段Conv-Transformer的时频域语音增强算法[J].计算机工程,2023,49(6):123-130. 被引量：1
3沈梦强,于文年,易黎,宋南.基于GAN的全时间尺度语音增强方法[J].计算机工程,2023,49(6):115-122. 被引量：2

二级参考文献4

1袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：35
2袁文浩,时云龙,胡少东,娄迎曦.一种基于时频域特征融合的语音增强方法[J].计算机工程,2021,47(10):75-81. 被引量：3
3王志杰,张学良.基于双路径循环神经网络的单通道语音增强[J].信号处理,2021,37(10):1872-1879. 被引量：5
4武瑞沁,陈雪勤,俞杰,王丽荣,赵鹤鸣.结合注意力机制的改进U-Net网络在端到端语音增强中的应用[J].声学学报,2022,47(2):266-275. 被引量：8

共引文献6

1潘丽莎.基于AI人工智能的学前教育机器人对话系统研究[J].自动化与仪器仪表,2023(5):245-248. 被引量：1
2郭一鸣.深度学习在射频干扰抑制中的应用研究[J].通信电源技术,2023,40(16):136-138.
3余本年,詹永照,毛启容,董文龙,刘洪麟.面向语音增强的双复数卷积注意聚合递归网络[J].计算机应用,2023,43(10):3217-3224. 被引量：3
4胡亚豪,陶蔚,谢艺菲,王田丰,潘志松.风格前缀引导下的无监督文本风格迁移[J].陆军工程大学学报,2023,2(6):31-38.
5王小莉.多语音和深度学习的对话机器人语音增强技术研究[J].自动化与仪器仪表,2023(12):173-177. 被引量：1
6张雄伟,张强,杨吉斌,孙蒙,李毅豪.时频分区扰动实现音频分类对抗样本生成[J].陆军工程大学学报,2024,3(1):1-11.

1袁诗萱.Banjul黑马闪现[J].足球周刊,2023(12):114-115.
2刘东旭,刘晓群,刘秉强.SE-YOLO:一种基于YOLOv8改进的密集缺陷检测算法[J].无线互联科技,2024,21(6):107-111.
3卢先领,杨嘉琦.时空关联的Transformer骨架行为识别[J].信号处理,2024,40(4):766-775.
4孙建,葛宪生,马东升.一种基于STFT的跳频参数估计方法[J].无线通信,2024,14(2):9-15.
5李杏清,王志兵,杨润丰,张金旺,詹宝容.面向AI安全的深度伪造视频检测技术[J].现代计算机,2024,30(5):72-76.
6师晓宇,王斌.基于注意力门UNet网络的CT金属伪影去除方法[J].计算机测量与控制,2024,32(4):219-225.
7张僮潼,周妍,罗小峰.基于深度学习的水肥药一体化系统的研究与设计[J].现代农业科技,2024(8):158-162.
8李鹏程,张旭龙,王健宗,程宁,肖京.面向非平行语料的语音转换技术综述[J].大数据,2024,10(3):65-81.
9王琪.同声传译设备中基于改进SBC编解码器算法的音频信号处理[J].自动化与仪器仪表,2024(2):64-67.
10刘慧慧,裴庆庆.改进U-Net网络的多视觉图像特征张量分割仿真[J].计算机仿真,2024,41(3):237-241.

计算机工程

2024年第4期

浏览历史

内容加载中请稍等...

基于并行多注意力的语音增强网络

参考文献3

二级参考文献4

共引文献6

相关作者

相关机构

相关主题

浏览历史