时频掩码优化的两阶段语音增强算法被引量：1

Two-stage speech enhancement algorithm based on time-frequency mask optimization

下载PDF

导出

摘要针对传统深度神经网络语音增强算法未区分在不同信噪比环境中去噪的侧重点,同时考虑到预测相位信息对于语音增强的重要性,提出了时频掩码优化的两阶段语音增强算法。第一阶段将带噪语音的幅度谱特征输入深度神经网络进行训练,预测得到干净语音幅度谱和噪声幅度谱;第二阶段通过信噪比信息估计增益系数,以控制残留噪声和语音失真之间的平衡;同时,计算带噪语音和纯净语音的相位偏差来协助预测语音频谱,将增益系数和相位偏差引入时频掩码函数,优化网络训练模型,以更好地预测纯净语音幅度谱。实验结果表明,相比优化前的算法,该方法增强后语音的语音质量感知指标平均提高0.22,语音可懂度指标平均提高0.027,更好地去除了噪声,降低了语音失真。 Aiming at the presence of the focus of denoising in different signal-to-noise ratio environments based on traditional Deep Neural Network(DNN),at the same time,considering the importance of phase information prediction for speech enhancement,a two-stage speech enhancement method with time-frequency mask optimization is proposed.The first stage extracts the amplitude spectrum characteristics of the noisy speech,and DNN is used to train to obtain the predicted amplitude spectrum of clean speech and noise.The SNR information is used to estimate the gain coefficient to control the difference between residual noise and speech distortion in the second stage.At the same time,calculate the phase deviation of noisy speech and pure speech to help predict the speech spectrum.The gain coefficient and phase deviation are substituted into the time-frequency mask function to optimize the network training model andcalculate the pure speech amplitude spectrum.Comparing with the algorithm before optimization,the experimental results show that after the method is enhanced,the Perceptual Evaluation of Speech Quality(PESQ)index of the speech is improved by an average of 0.22,and the Short Time Objective Intelligibility(STOI)index is increased by 0.027 an average,which can better remove noise and reduce speech distortion.

作者郑莉李鸿燕 ZHENG Li;LI Hongyan(College of Information and Computer,Taiyuan University of Technology,Yuci 030600,China)

机构地区太原理工大学信息与计算机学院

出处《电子设计工程》 2022年第4期17-21,共5页 Electronic Design Engineering

基金山西省自然科学基金资助项目(201701D121058) 山西省回国留学人员科研资助项目(2020-042)。

关键词语音增强深度神经网络时频掩码信噪比信息增益系数 speech enhancement DNN time-frequency mask SNR information gain coefficient

分类号 TN912.35 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献6

1向晖.语音信号增强技术在语音识别中的应用[J].通讯世界,2019,26(8):47-48. 被引量：3
2韩伟,张雄伟,闵刚,张启业.基于感知掩蔽深度神经网络的单通道语音增强方法[J].自动化学报,2017,43(2):248-258. 被引量：18
3袁文浩,娄迎曦,梁春燕,王志强.感知联合优化的深度神经网络语音增强方法[J].西安电子科技大学学报,2019,46(2):89-94. 被引量：4
4凌佳佳,袁晓兵.联合噪声分类和掩码估计的语音增强方法[J].电子设计工程,2018,26(17):30-34. 被引量：3
5韩伟,张雄伟,周星宇,白崧廷,闵刚.联合优化深度神经网络和约束维纳滤波的单通道语音增强方法[J].计算机应用研究,2017,34(3):706-709. 被引量：6
6贾海蓉,王卫梅,吉慧芳.信噪比信息与时频特征修正相位的语音增强[J].西安电子科技大学学报,2019,46(5):162-170. 被引量：5

二级参考文献13

1王水平,唐振民,陈北京,蒋晔.复杂环境下语音增强的复平面谱减法[J].南京理工大学学报,2013,37(6):857-862. 被引量：6
2邹霞,陈亮,张雄伟.基于Gamma语音模型的语音增强算法[J].通信学报,2006,27(10):118-123. 被引量：11
3张勇,刘轶,刘宏.结合人耳听觉感知的两级语音增强算法[J].信号处理,2014,30(4):363-373. 被引量：7
4张立伟,贾冲,张雄伟,闵刚,曾理.稀疏卷积非负矩阵分解的语音增强算法[J].数据采集与处理,2014,29(2):259-264. 被引量：13
5杨文帅,张一闻,赵宏旭,段妍羽.一种基于波束形成方法的降噪技术[J].激光杂志,2018,39(12):62-65. 被引量：2
6郭利华,马建芬.具有高可懂度的改进的维纳滤波的语音增强算法[J].计算机应用与软件,2014,31(11):155-157. 被引量：12
7刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：70
8王栋,贾海蓉.改进相位谱补偿的语音增强算法[J].西安电子科技大学学报,2017,44(3):83-88. 被引量：14
9袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：39
10张珣,杜婉芬.RLS双麦克风噪声对消技术[J].科技风,2018(28):68-69. 被引量：3

共引文献33

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：14
2向前,唐勇.基于生成对抗网络的汉语语音增强技术研究[J].计算机应用研究,2020,37(S02):150-151. 被引量：2
3袁文浩,梁春燕,夏斌,孙文珠.一种融合相位估计的深度卷积神经网络语音增强方法[J].电子学报,2018,46(10):2359-2366. 被引量：7
4冯利琪,江华,闫格,闵长伟,李玲香.DNN与谱减法相结合的语音分离技术[J].软件导刊,2018,17(12):12-17. 被引量：2
5白涛,吴谨,李明磊,万磊,李丹阳.DRNN在激光多普勒测振仪测声系统中的应用[J].激光技术,2019,43(1):109-114. 被引量：4
6雷志彬,陈骏霖.基于全连接LSTM的心肺音分离方法[J].自动化与信息工程,2018,39(6):25-30. 被引量：5
7王雁,贾海蓉,吉慧芳,王卫梅.特征联合优化深度信念网络的语音增强算法[J].计算机工程与应用,2019,55(9):38-42. 被引量：5
8张天骐,熊梅,张婷,杨强.结合区分性训练深度神经网络的歌声与伴奏分离方法[J].声学学报,2019,44(3):393-400. 被引量：2
9袁文浩,梁春燕,夏斌.基于深度神经网络的因果形式语音增强模型[J].计算机工程,2019,45(8):255-259. 被引量：4
10朱晓铭,王仲悦,陈林海,张帅,王云峰.基于卷积自编码器的心电压缩方法[J].电子设计工程,2019,27(22):65-69. 被引量：1

同被引文献15

1王玉宝,纸少瑜.光码标签交换网络边缘节点FEC的研究[J].通信学报,2012,33(5):72-78. 被引量：1
2薛晨,焦彦军.变电站信号分流对中压配网电力线载波通信的影响[J].科学技术与工程,2017,17(34):237-242. 被引量：3
3高翔霄,俞达,任月慧,高玲玲,徐丽.无线传感器网络数据传输延时分配算法[J].计算机测量与控制,2020,28(5):258-262. 被引量：9
4秦先祥,余旺盛,王鹏,陈天平,邹焕新.基于复值卷积神经网络样本精选的极化SAR图像弱监督分类方法[J].雷达学报（中英文）,2020,9(3):525-538. 被引量：4
5唐群,朱国强.基于MEC的蜂窝网络联合计算与无线资源管理[J].计算机工程与应用,2020,56(14):82-87. 被引量：4
6陈海燕.分布式通信网络多频段信号源远程切换控制算法[J].吉林大学学报（工学版）,2020,50(5):1886-1893. 被引量：5
7李毅,董根才,蔺伟,姜博,柴金川.边缘计算技术在铁路5G移动通信中的应用研究[J].中国铁路,2020(11):23-30. 被引量：25
8田贤忠,赵晨,姚超,丁军.无线携能通信中继网络最大化总传输速率[J].浙江工业大学学报,2021,49(2):210-214. 被引量：4
9汪轩,沈金松,王志刚,孙卫斌.海洋可控源电磁数据的畸变校正与合成孔径源信号增强方法[J].吉林大学学报（地球科学版）,2021,51(6):1872-1880. 被引量：8
10唐明磊,张文鹏,姜卫东,高勋章.基于多分辨率显著性滤波的微动信号增强方法[J].系统工程与电子技术,2022,44(4):1148-1157. 被引量：7

引证文献1

1张洁.基于MEC的移动通信网络传输信号增强方法[J].电子设计工程,2023,31(17):169-172. 被引量：3

二级引证文献3

1谢政.无线移动通信网络的覆盖优化与信号增强[J].IT经理世界,2024(3):124-126.
2罗永剑.基于深度自适应小波网络的移动通信网络传输信号增强方法[J].长江信息通信,2024,37(8):178-181.
3王玉刚.自适应滤波下中波无线电广播信号增强研究[J].无线互联科技,2024,21(19):4-6.

1蒋学仕.结合语音包络的变步长LMS语音自动增益控制[J].电讯技术,2022,62(2):252-258. 被引量：2

电子设计工程

2022年第4期

浏览历史

内容加载中请稍等...

时频掩码优化的两阶段语音增强算法被引量：1

参考文献6

二级参考文献13

共引文献33

同被引文献15

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

时频掩码优化的两阶段语音增强算法 被引量：1

参考文献6

二级参考文献13

共引文献33

同被引文献15

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

时频掩码优化的两阶段语音增强算法被引量：1