基于卷积门控循环神经网络的语音增强方法被引量：9

Speech enhancement method based on convolutional gated recurrent neural network

导出

摘要为了进一步提高基于深度神经网络的语音增强方法的性能,针对单独使用卷积神经网络难以对含噪语音中的长期依赖关系进行建模的问题,提出一种基于卷积门控循环神经网络的语音增强方法.该方法首先采用卷积神经网络提取含噪语音中的局部特征,然后采用门控循环神经网络将含噪语音中不同时间段的局部特征进行关联,通过结合两种网络的不同特性,在语音增强中更好地利用含噪语音中的上下文信息.实验结果表明:该方法能够有效提高未知噪声条件下的语音增强性能,增强后的语音具有更好的语音质量和可懂度. In order to further improve the performance of speech enhancement methods based on deep neural networks,a speech enhancement method based on the convolutional gated recurrent neural network was proposed for the problem that it is difficult to model long-term dependencies in noisy speech using convolutional neural networks alone.First,the local feature of noisy speech was extracted using a convolutional neural network,and then the local feature in different time periods was correlated using a gated recurrent neural network.By combining the different characteristics of these two networks,the method made full use of the contextual information in noisy speech in speech enhancement.Experimental results show that the method can effectively improve the speech enhancement performance under unknown noise conditions,and the enhanced speech has better speech quality and intelligibility.

作者袁文浩娄迎曦夏斌孙文珠 YUAN Wenhao;LOU Yingxi;XIA Bin;SUN Wenzhu(College of Computer Science and Technology,Shandong University of Technology,Zibo 255000,Shandong China)

机构地区山东理工大学计算机科学与技术学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2019年第4期13-18,共6页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家自然科学基金青年基金资助项目(61701286 11704229) 山东省自然科学基金资助项目(ZR2015FL003 ZR2017MF047 ZR2017LA011 ZR2017LF004)

关键词语音增强深度学习卷积神经网络循环神经网络局部特征 speech enhancement deep learning convolutional neural network recurrent neural network local feature

分类号 TN912.35 [电子电信—通信与信息系统] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：69
2袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：38

二级参考文献67

1Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that im- proves speech intelligibility in noise for normal-hearing lis- teners. The Journal of the Acoustical Society of America, 2009, 126(3): 1486-1494.
2Dillon H. Hearing Aids. New York: Thieme, 2001.
3Allen J B. Articulation and intelligibility. Synthesis Lectures on Speech and Audio Processing, 2005, 1(1): 1-124.
4Seltzer M L, Raj B, Stern R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004, 43(4): 379-393.
5Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015.91 -99.
6Weng C, Yu D, Seltzer M L, Droppo J. Deep neural networks for single-channel multi-talker speech recognition. IEEE/ ACM Transactions on Audio, Speech, and Language Pro- cessing, 2015, 23(10): 1670-1679.
7Boll S F. Suppression of acoustic noise in speech using spec- tral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113-120.
8Chen J D, Benesty J, Huang Y T, Doclo S. New insights into the noise reduction wiener filter. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1218 -1234.
9Loizou P C. Speech Enhancement: Theory and Practice. New York: CRC Press, 2007.
10Liang S, Liu W J, Jiang W. A new Bayesian method incor- porating with local correlation for IBM estimation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3): 476-487.

共引文献94

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：14
2连海伦,周健,胡雨婷,郑文明.利用深度卷积神经网络将耳语转换为正常语音[J].声学学报,2020,45(1):137-144. 被引量：8
3志东.鲁棒性语音识别技术研究综述[J].信息通信,2019,0(11):20-22. 被引量：1
4杨海龙,曾祥福,钟维良.多尺度时域单通道语音分离网络设计[J].电声技术,2021,45(10):96-99.
5黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
6吕菲,夏秀渝.基于方位特征的听觉选择性注意计算模型研究[J].自动化学报,2017,43(4):634-644. 被引量：5
7支艳利,张云伟.基于环形麦克风阵列的远场语音识别系统[J].微型电脑应用,2017,33(4):62-64. 被引量：2
8王程,周婉,何军.面向自动音乐生成的深度递归神经网络方法[J].小型微型计算机系统,2017,38(10):2412-2416. 被引量：14
9袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：38
10任晓霞.基于Dropout深度卷积神经网络的ST段波形分类算法[J].传感技术学报,2018,31(8):1217-1222. 被引量：10

同被引文献98

1黄苏雨,梁声灼,黄苏园.语音增强方法综述[J].计算机与现代化,2007(3):16-20. 被引量：16
2张丽艳,殷福亮.一种改进的奇异值分解语音增强方法[J].电子与信息学报,2008,30(2):357-361. 被引量：11
3张吉信,郭平,王红有.概率神经网络在桩基缺陷诊断中的应用[J].四川建筑,2008,28(2):103-104. 被引量：1
4徐耀华,王刚,郭英.基于时频阈值的小波包语音增强算法[J].电子与信息学报,2008,30(6):1363-1366. 被引量：16
5陈超美（著）,陈悦（译）,侯剑华（译）,梁永霞（译）.CiteSpaceⅡ：科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,28(3):401-421. 被引量：1384
6郑成诗,胡笑浒,周翊,李晓东.基于噪声谱结构特性的谱减法[J].声学学报,2010,35(2):215-222. 被引量：19
7韩志华.核心专利判别的综合指标体系研究[J].中国外资,2010(4):193-196. 被引量：50
8刘宝臣,唐辉明,赵艳林.基于神经网络的桩基完整性预测分析[J].路基工程,2010(3):44-46. 被引量：3
9程塨,郭雷,贺胜,赵天云.一种基于实时噪声估计的改进谱减法[J].计算机科学,2010,37(11):212-213. 被引量：5
10康维新,彭喜元.桩基缺陷特征的视窗提取及特征向量矩阵[J].哈尔滨理工大学学报,2010,15(6):30-35. 被引量：1

引证文献9

1张明亮,陈雨.基于全卷积神经网络的语音增强算法[J].计算机应用研究,2020,37(S01):135-137. 被引量：7
2常新旭,张杨,杨林,寇金桥,王昕,徐冬冬.融合多头自注意力机制的语音增强方法[J].西安电子科技大学学报,2020,47(1):104-110. 被引量：9
3常新旭,张杨,杨林,寇金桥,王昕,徐冬冬.利用门控循环编解码网络的语音增强方法[J].计算机工程与设计,2020,41(6):1762-1767. 被引量：1
4曹丽静.语音增强技术研究综述[J].河北省科学院学报,2020,37(2):30-36. 被引量：7
5许春冬,徐琅,周滨,凌贤鹏.单通道语音增强技术的研究现状与发展趋势[J].江西理工大学学报,2020,41(5):55-64. 被引量：1
6刘伟平,田思文.基于卷积神经网络的桩完整性分类[J].南昌大学学报（工科版）,2021,43(3):263-268. 被引量：2
7李辉,景浩,严康华,徐良浩.基于卷积循环网络与非局部模块的语音增强方法[J].电子科技,2022,35(3):8-15. 被引量：4
8梁江海,吴集,刘书雷.运用专利计量分析的类脑智能技术评估综述[J].华中科技大学学报（自然科学版）,2022,50(2):96-104. 被引量：2
9李辉,景浩,严康华,邹波蓉,侯庆华,武会斌.基于双通道卷积注意力网络的语音增强方法[J].河南理工大学学报（自然科学版）,2022,41(5):127-136. 被引量：2

二级引证文献35

1常新旭,张杨,杨林,寇金桥,王昕,徐冬冬.利用门控循环编解码网络的语音增强方法[J].计算机工程与设计,2020,41(6):1762-1767. 被引量：1
2孙立辉,曹丽静,张竟雄.基于升降编解码全卷积神经网络语音增强技术[J].智能计算机与应用,2021,11(2):19-22.
3毛跃辉.传声器阵列在语音空调中的设计研究及应用[J].家电科技,2021(3):34-37. 被引量：1
4刘权,徐伟,李深安.汽车智能语音发展趋势:从被动到主动的交互升级[J].汽车电器,2021(10):5-8. 被引量：5
5王钇翔,吕忆蓝,台文鑫,孙建强,蓝天.基于区域自适应多尺度卷积的单声道语音增强算法[J].计算机应用研究,2021,38(11):3264-3267. 被引量：1
6高戈,曾邦,王霄,尹文兵,陈怡.基于声纹嵌入的语音增强算法[J].计算机应用研究,2022,39(3):688-692. 被引量：1
7杨鹏,赵欣桐.煤矿机器人语音交互系统研究[J].煤矿机械,2022,43(4):55-57. 被引量：1
8彭硕,刘东阳,时国龙,李广博,慕京生,辜丽川,焦俊.基于深度神经网络及隐马尔科夫模型的生猪状态音频识别[J].中国农业大学学报,2022,27(6):172-181. 被引量：4
9曾金芳,张新,刘雨杏.基于CEEMDAN的多级联合处理的语音增强算法[J].通信与信息技术,2022(3):31-37.
10李文志,屈晓旭.基于注意力机制和残差卷积网络的语音增强[J].舰船电子工程,2022,42(5):96-100. 被引量：1

1邹清.六大方法让男人雄风长存“精”久不衰[J].保健与生活,2019,0(9):52-52.
2蔡良,夏秀渝,陆雄,孙文慧.基于基音跟踪的语音增强研究[J].成都信息工程大学学报,2019,34(1):1-6.
3袁文浩,娄迎曦,梁春燕,王志强.感知联合优化的深度神经网络语音增强方法[J].西安电子科技大学学报,2019,46(2):89-94. 被引量：4
4向柏松.龙的多维层面与中华民族共同体的形成[J].中原文化研究,2019,7(3):24-31. 被引量：3
5陶秀文,吴文念.自适应滤波器设计[J].电脑知识与技术,2019,15(2Z):244-245. 被引量：2
6王招娣,宁宁,杨数强.基于SURF特征的目标跟踪算法研究[J].信息技术与信息化,2019(3):78-80. 被引量：1
7马孟铖,艾斯卡尔.艾木都拉,吐尔地.托合提.基于条件随机场多特征融合的中文地名、机构名实体识别[J].现代计算机,2019,25(12):13-17. 被引量：5
8王新栋,于华,江成.社交网络关键节点检测的积极效应问题[J].中国科学院大学学报（中英文）,2019,36(3):425-432. 被引量：3
9王光艳,李玥玲,王新刚.基于Python的深度学习BP网络语音增强方法研究[J].信息通信,2019,32(3):58-59. 被引量：4
10金瑞.面向地理对象交互关系的城市空间结构变化研究[J].地理与地理信息科学,2019,35(3):141-141. 被引量：1

华中科技大学学报（自然科学版）

2019年第4期

浏览历史

内容加载中请稍等...

基于卷积门控循环神经网络的语音增强方法被引量：9

参考文献2

二级参考文献67

共引文献94

同被引文献98

引证文献9

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于卷积门控循环神经网络的语音增强方法 被引量：9

参考文献2

二级参考文献67

共引文献94

同被引文献98

引证文献9

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于卷积门控循环神经网络的语音增强方法被引量：9