基于深度神经网络的因果形式语音增强模型被引量：4

Causal Speech Enhancement Model Based on Deep Neural Network

下载PDF

导出

摘要传统的基于深度神经网络(DNN)的语音增强方法由于采用非因果形式的输入,在处理过程中具有固定延时,不适用于实时性要求较高的场合。针对这一问题,从网络结构角度展开研究,通过实验对不同网络结构在不同输入形式下的语音增强性能进行对比,寻找适用于因果形式输入的网络结构,在此基础上,结合卷积神经网络和长短期记忆网络建立一个能充分利用先前帧信息的因果语音增强模型。实验结果表明,该模型在提高基于DNN的语音增强方法实时性的同时,保证了语音增强性能,其PESQ与STOI得分分别为2.25和0.76。 The traditional speech enhancement method based on Deep Neural Network (DNN) has a fixed delay in processing due to its non-causal input,which is unsuitable for the real-time applications.To solve this problem,studying from the perspective of network structures,comparing the speech enhancement performance of different network structures under different input formats through experiments,the network structure suitable for the causal input is found in this paper.On this basis,by combining Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM),a causal speech enhancement model that can fully utilize the information of previous frames is established.Experimental results show that the proposed model is able to improve the real-time performance of the DNN-based speech enhancement method while ensuring the speech enhancement performance,whose PESQ and STOI scores are 2.25 and 0.76.

作者袁文浩梁春燕夏斌 YUAN Wenhao;LIANG Chunyan;XIA Bin(School of Computer Science and Technology,Shandong University of Technology,Zibo,Shandong 255000,China)

机构地区山东理工大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2019年第8期255-259,共5页 Computer Engineering

基金国家自然科学基金(61701286,11704229) 山东省自然科学基金(ZR2015FL003,ZR2017MF047,ZR2017LA011)

关键词语音增强因果形式输入延时深度神经网络卷积神经网络 speech enhancement causal input delay Deep Neural Network(DNN) Convolutional Neural Network(CNN)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：69
2韩伟,张雄伟,闵刚,张启业.基于感知掩蔽深度神经网络的单通道语音增强方法[J].自动化学报,2017,43(2):248-258. 被引量：18
3周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1726
4袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：38

二级参考文献77

1邹霞,陈亮,张雄伟.基于Gamma语音模型的语音增强算法[J].通信学报,2006,27(10):118-123. 被引量：11
2Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that im- proves speech intelligibility in noise for normal-hearing lis- teners. The Journal of the Acoustical Society of America, 2009, 126(3): 1486-1494.
3Dillon H. Hearing Aids. New York: Thieme, 2001.
4Allen J B. Articulation and intelligibility. Synthesis Lectures on Speech and Audio Processing, 2005, 1(1): 1-124.
5Seltzer M L, Raj B, Stern R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004, 43(4): 379-393.
6Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015.91 -99.
7Weng C, Yu D, Seltzer M L, Droppo J. Deep neural networks for single-channel multi-talker speech recognition. IEEE/ ACM Transactions on Audio, Speech, and Language Pro- cessing, 2015, 23(10): 1670-1679.
8Boll S F. Suppression of acoustic noise in speech using spec- tral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113-120.
9Chen J D, Benesty J, Huang Y T, Doclo S. New insights into the noise reduction wiener filter. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1218 -1234.
10Loizou P C. Speech Enhancement: Theory and Practice. New York: CRC Press, 2007.

共引文献1828

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2杜佳峰,王景松,杨宝军,薛勇新,郑春华.基于卷积神经网络的船舶水尺字符识别方法研究[J].中国水运（下半月）,2020(3):1-3. 被引量：1
3陆天和,刘莉,贺云涛,杨盾.多无人机航迹规划算法及关键技术[J].战术导弹技术,2020(1):85-90. 被引量：7
4林桢哲,王桂棠,陈建强,符秦沈.基于残差网络深度学习的肺部CT图像结节良恶性分类模型[J].仪器仪表学报,2020,41(3):248-256. 被引量：22
5陈仁祥,张勇,杨黎霞,陈才,徐向阳.基于整周期数据和卷积神经网络的谐波减速器健康状态评估[J].仪器仪表学报,2020,41(2):245-252. 被引量：20
6鲍光海,林善银,徐林森.基于改进型卷积网络的汽车高度调节器缺陷检测方法[J].仪器仪表学报,2020,41(2):157-165. 被引量：13
7李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：14
8谭宇辰,蔡晶晶,倪辰.基于深度学习的Web攻击检测技术研究[J].信息网络安全,2020(S02):122-126.
9任杰,李钢,赵燕姣,姚琼辛,田培辰.基于改进Faster RCNN的城市道路货车检测[J].计算机系统应用,2022,31(12):316-321. 被引量：3
10胡伟,文武,魏敏.改进U-Net的高分辨率遥感图像轻量化分割[J].计算机系统应用,2022,31(12):135-146. 被引量：2

同被引文献22

1陈紫强,周德新,欧阳缮.滤波器组自适应语音增强方法[J].计算机工程与应用,2008,44(26):211-213. 被引量：2
2刘志坤,唐小明,朱洪伟.基于改进谱减法的语音增强研究[J].计算机仿真,2009,26(6):363-366. 被引量：15
3周晓凤,肖南峰,文翰.基于情感特征分类的语音情感识别研究[J].计算机应用研究,2012,29(10):3648-3650. 被引量：5
4蔡宇,郝程鹏,侯朝焕.采用子带谱减法的语音增强[J].计算机应用,2014,34(2):567-571. 被引量：7
5袁文浩,林家骏,王雨,陈宁.一种基于噪声分类的语音增强方法[J].华东理工大学学报（自然科学版）,2014,40(2):196-201. 被引量：5
6刘鹏.低信噪比下高可懂度语音增强算法[J].计算机系统应用,2018,27(12):187-191. 被引量：2
7黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
8乔宽,杨中豪.基于深度神经网络的语音增强研究[J].广东通信技术,2015,35(6):62-64. 被引量：3
9韩伟,张雄伟,闵刚,张启业.基于感知掩蔽深度神经网络的单通道语音增强方法[J].自动化学报,2017,43(2):248-258. 被引量：18
10孟欣,马建芬,张雪英.改进的参数自适应的维纳滤波语音增强算法[J].计算机工程与设计,2017,38(3):714-718. 被引量：8

引证文献4

1张行,赵馨.基于神经网络噪声分类的语音增强算法[J].中国电子科学研究院学报,2020,15(9):880-885. 被引量：4
2刘雅琴,甘文丽.一种基于谱减法的语音增强算法研究[J].微型电脑应用,2020,36(12):56-57. 被引量：3
3彭月,蒙祖强,杨丽娜.一种基于GRU神经网络的语音增强方法[J].广西大学学报（自然科学版）,2021,46(6):1533-1548. 被引量：3
4李江和,王玫.一种用于因果式语音增强的门控循环神经网络[J].计算机工程,2022,48(11):77-82. 被引量：3

二级引证文献13

1孙立辉,曹丽静,张竟雄.基于升降编解码全卷积神经网络语音增强技术[J].智能计算机与应用,2021,11(2):19-22.
2肖刚祥,周妙琪,刘俊,李军成.声源定位中三种常用语音增强算法的对比分析[J].电子元器件与信息技术,2021,5(7):45-48. 被引量：1
3徐浩森,姜囡,齐志坤.基于注意力机制的卷积循环网络语音降噪[J].科学技术与工程,2022,22(5):1950-1957. 被引量：9
4谢家兴,梁高天,尹东晓.基于FFT变换和ADALINE网络的实时音频滤除窄带噪声方法[J].现代电子技术,2022,45(9):41-45. 被引量：1
5徐浩森,姜囡,齐志坤.噪声分析在语音检验中的应用研究[J].警察技术,2022(4):51-56. 被引量：1
6陈琳.面向语音特征提取的英语机器人识别方法构建[J].自动化与仪器仪表,2022(8):234-239.
7张玥,张雄伟,孙蒙.基于时频注意力机制与U-Net的骨导语音鲁棒增强方法[J].信号处理,2022,38(10):2134-2143.
8王玫,李江和,宋浠瑜,刘小娟.基于轻量级卷积门控循环神经网络的语声增强方法[J].应用声学,2023,42(3):652-658. 被引量：1
9王玫,刘小娟,宋浠瑜,李江和,仇洪冰.球形传声器阵列下基于主导声源检测MUSIC群时延算法的多声源定位[J].应用声学,2024,43(2):367-377.
10哈筝.强噪环境下分频段数字音频信号精细化采集研究[J].现代电子技术,2024,47(11):64-68.

1叶中付,朱媛媛,贾翔宇.基于字典学习和稀疏表示的单通道语音增强算法综述[J].应用声学,2019,38(4):645-652. 被引量：1
2文旭卿,胡赤兵,郑会康,王昭根.基于BP神经网络法的某公路隧道涌水量研究[J].山西建筑,2019,45(14):3-4. 被引量：1
3刘嘉政.基于卷积神经网络的小样本树皮图像识别方法[J].西北林学院学报,2019,34(4):230-235. 被引量：11
4姚兵,侯斌,李文燕,王志鑫,郭志方,康宁,冯炜,梁俊清.四氢紫堇萨明对AD细胞模型Tau蛋白磷酸化的影响及其可能机制研究[J].天然产物研究与开发,2019,31(7):1246-1251. 被引量：2
5陈国平,王红,程秋菊.基于数字移相锁相技术的扬声器故障检测[J].中国测试,2019,45(6):1-5. 被引量：2
6买买提江·阿不力孜.羊病治疗中常见误区[J].农家致富顾问,2019,0(10):92-92.
7杨志勇,冯刚,刘瑜倩,刘少伟.增强型导弹四极场电磁轨道发射器研究[J].空军工程大学学报（自然科学版）,2019,20(3):77-83. 被引量：2
8王娴.浅谈十九大报告文本的结构美[J].名家名作,2019,0(4):15-15.
9刘娜.社会流动研究的新结构主义分析视角[J].传播力研究,2019,0(14):209-210.
10郑重,王琪,周圆,钱艺华,赵耀洪.基于多频超声的变压器油质在线监测有效性研究[J].电测与仪表,2019,56(13):142-147. 被引量：7

计算机工程

2019年第8期

浏览历史

内容加载中请稍等...

基于深度神经网络的因果形式语音增强模型被引量：4

参考文献4

二级参考文献77

共引文献1828

同被引文献22

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的因果形式语音增强模型 被引量：4

参考文献4

二级参考文献77

共引文献1828

同被引文献22

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的因果形式语音增强模型被引量：4