结合注意力机制的改进U-Net网络在端到端语音增强中的应用被引量：8

Application of improved U-Net network with attention mechanism in end-to-end speech enhancement

下载PDF

导出

摘要设计了一个适用于端到端语音增强的改进的U-Net(Attention Dilated Convolution U-Net,ADC-U-Net)网络模型。与基线U-Net网络相比,一方面通过加入空洞卷积减小由采样带来的信息损失;另一方面引入了注意力机制结构,结合了含噪语音更多的上下文信息,提取更深层次和更丰富的特征信息。与传统语音增强方法相比,所提模型无需提取特征、对特征去噪、重构语音3个步骤,避免了对显性特征的依赖,转而由网络模型通过多层次多尺度学习获得隐性特征。用多个主客观指标对增强语音的质量和可懂度进行了评价。实验数据显示所提算法在噪声抑制能力和对噪声的适应度方面均表现出良好的性能,与基线U-Net网络及其它模型相比,展示了良好的语音质量和可懂度。 An improved U-Net(ADC-U-Net)network model for end-to-end speech enhancement is designed based on the U-Net network.Compared with the baseline U-Net network,on the one hand,the information loss caused by sampling is reduced by adding the void convolution.On the other hand,the attention mechanism structure is introduced,which combines more contextual information of noisy speech to extract deeper and richer feature information.Compared with traditional speech enhancement methods,the proposed model does not need three steps of feature extraction,feature denoising and speech reconstruction,and avoids the dependence on explicit features.Instead,the network model obtains implicit features through multi-level and multi-scale learning.The quality and intelligibility of enhanced speech are evaluated by several subjective and objective indexes.Experimental data show that the proposed algorithm performs well in noise suppression and adaptability.Compared with the baseline U-Net network and other models,the proposed algorithm demonstrates good speech quality and intelligibility.

作者武瑞沁陈雪勤俞杰王丽荣赵鹤鸣 WU Ruiqin;CHEN Xueqin;YU Jie;WANG Lirong;ZHAO Heming(School of Electronic and Information Engineering,Soochow University,Suzhou 215006)

机构地区苏州大学电子信息学院

出处《声学学报》 EI CAS CSCD 北大核心 2022年第2期266-275,共10页 Acta Acustica

基金国家自然科学基金项目(61340004)资助。

关键词注意力机制上下文信息语音增强网络模型可懂度信息损失隐性特征适应度

分类号 TN912.35 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1李轶南,张雄伟,曾理,黄建军.改进的稀疏字典学习单通道语音增强算法[J].信号处理,2014,30(1):44-50. 被引量：12
2贾海蓉,王卫梅,王雁,裴俊华.区分性联合稀疏字典交替优化的语音增强[J].西安电子科技大学学报,2019,46(3):74-81. 被引量：5
3聂玲子,陈雪勤,赵鹤鸣.结合幅度谱和功率谱字典的语音增强方法[J].声学学报,2021,46(1):81-91. 被引量：5
4闫昭宇,王晶.结合深度卷积循环网络和时频注意力机制的单通道语音增强算法[J].信号处理,2020,36(6):863-870. 被引量：9

二级参考文献19

1Benesty J,Makino S,Chen J. Speech enhancement[M].Berlin Germany:Springer,2005.
2Christian D.Sigg,Tomas Dikk,Joachim M.Buhmann. Speech enhancement with sparse coding in learned dictionaries[A].2010.4758-4761.
3K.Wilson,B.Raj,P.Smaragdis,A.Divakaran. Speech denoising using nonnegative matrix factorization with priors[A].2008.4029-4032.
4Christian D.Sigg,Tomas Dikk,Joachim M.Buhmann. Speech enhancement using generative dictionary Learning[J].IEEE Transactions on audio speech and language processing,2012,(06):1698-1712.
5Mikkel N.Schmidt,Jan Larsen,Fu-Tien Hsiao. Wind noise reduction using non-negative sparse coding[A].2007.431-436.
6Michal Aharon,Michael Elad,Alfred M. K-SVD and its Non-Negative Variant for Dictionary Design[A].SPIE,Belingham,WA,2005.
7Michal Aharon,Michael Elad,Alfred M.Bruckstein. The K-SVD:An algorithm for designing of overcomplete dictionaries for sparse and representation[J].{H}IEEE Transactions on Signal Processing,2006,(11):4311-4322.
8P.O.Hoyer. Non-negative matrix factorization with sparse constraints[J].{H}JOURNAL OF MACHINE LEARNING RESEARCH,2004.1457-1469.
9P.O.Hoyer. Non-negative sparse coding[A].2002.557-565.
10Ron Rubinstein,Alfred M.Bruckstein,Michael Elad. Dictionaries for sparse representation modeling[J].{H}IEEE Proceedings,2010,(06):1045-1057.

共引文献23

1崔晓.自训练过完备字典和稀疏表示的语音增强[J].现代电子技术,2015,38(13):56-58. 被引量：3
2胡永刚,张雄伟,邹霞,闵刚,郑云飞,李莉,石佳佳.改进的非负矩阵分解语音增强算法[J].信号处理,2015,31(9):1117-1123. 被引量：7
3陆真,裴东兴.基于连续小波阈值函数的语音增强技术[J].山西电子技术,2016(1):40-42. 被引量：1
4张青,吴进.基于多窗谱估计的改进维纳滤波语音增强[J].计算机应用与软件,2017,34(3):67-70. 被引量：11
5张雄伟,李轶南,时文华,胡永刚,陈栩杉.非负组合模型及其在声源分离中的应用[J].数据采集与处理,2017,32(2):266-277. 被引量：2
6滕少华,宋欢,霍颖翔,张巍.一种增量式学习的语音字典构造方法[J].广东工业大学学报,2018,35(3):29-36. 被引量：1
7武正平,马建芬,张朝霞,杨东东.改进的正交匹配追踪的语音增强算法[J].应用声学,2018,37(6):934-939. 被引量：1
8时文华,张雄伟,邹霞,孙蒙.利用深度全卷积编解码网络的单通道语音增强[J].信号处理,2019,35(4):631-640. 被引量：4
9孙林慧,吴子皓,谢可丽,李平安.基于双层字典学习的单通道语音增强方法[J].信号处理,2020,36(6):1001-1012. 被引量：1
10李霞,陈军翰,王艺达.稀疏表示下的超声信号处理研究及应用[J].新型工业化,2020,10(6):70-72.

同被引文献63

1陈彦彤,李雨阳,陈伟楠,张献中,王俊生.基于深度语义分割的遥感图像海面舰船检测研究[J].仪器仪表学报,2020,41(1):233-240. 被引量：24
2安庆,程耀瑜,管今哥,孙鹏,张成飞,薛晨阳.燃烧火焰的动态辐射高光谱测温方法研究[J].国外电子测量技术,2021,40(12):67-71. 被引量：1
3钱勇先,王慎中.重采样法高分辨率处理[J].石油地球物理勘探,1994,29(4):498-503. 被引量：2
4宋维琪,赵万金,吴华,冯磊.利用多分辨率小波网络进行地震资料反演[J].地震地质,2005,27(1):98-104. 被引量：2
5路阳,程晓斌,李晓东,田静.结合房间声学特点的子带自适应滤波声学回音抵消算法[J].电声技术,2006,30(8):54-56. 被引量：1
6陈智颖,陈锴,卢晶,方元.双通道回声抵消系统中改进算法的定点化实现[J].应用声学,2009,28(3):166-173. 被引量：1
7徐炜君,刘国忠.空间域和频域结合的图像增强技术及实现[J].中国测试,2009,35(4):52-54. 被引量：12
8陈国民,沈章洪,鲍祥生,张金淼.确定合成地震记录子波主频的方法研究[J].石油天然气学报,2009,31(5):55-60. 被引量：4
9曹斌芳,李建奇,李婷.强噪声环境下语音增强算法的比较研究[J].噪声与振动控制,2010,30(1):55-58. 被引量：1
10郑成诗,胡笑浒,周翊,李晓东.基于噪声谱结构特性的谱减法[J].声学学报,2010,35(2):215-222. 被引量：19

引证文献8

1汪晟磊,宋星,杨彦青.智能家居语音控制系统的设计[J].自动化与仪器仪表,2023(4):117-122. 被引量：2
2李学贵,周英杰,董宏丽,吴钧,徐刚,王如意.基于双注意力U-Net网络的提高地震分辨率方法[J].石油地球物理勘探,2023,58(3):507-517. 被引量：1
3沈梦强,于文年,易黎,宋南.基于GAN的全时间尺度语音增强方法[J].计算机工程,2023,49(6):115-122. 被引量：2
4张琳,王海涛,杨爽,曾向阳,陈克安.面向舱室声学环境的深度时域语音增强网络[J].声学学报,2023,48(4):890-900.
5刘秋月,刘雪峰,孙绍华.基于阴影增强和注意力机制的高光谱图像分类[J].电子测量技术,2023,46(8):14-23. 被引量：1
6刘杨,杨飞然,杨军.编码器-时序建模结构的时延估计及在回声抵消中的应用[J].声学学报,2023,48(5):1036-1044.
7杨弋,胡琦,张鹏远.双路注意力循环网络的轻量化语音分离[J].声学学报,2023,48(5):1060-1069.
8高盛祥,莫尚斌,余正涛,董凌,王文君.基于多维度注意力机制和复数Conformer的单通道语音增强方法[J].重庆邮电大学学报（自然科学版）,2024,36(2):393-403.

二级引证文献6

1崔北尧,王峰,刘士军,李伟光,王一飞.基于Arduino与Processing互动编程的特种仓库智能测控系统设计[J].现代电子技术,2023,46(18):177-182.
2李齐新.智能开关插座的发展探讨[J].中国照明电器,2023(7):42-44.
3余本年,詹永照,毛启容,董文龙,刘洪麟.面向语音增强的双复数卷积注意聚合递归网络[J].计算机应用,2023,43(10):3217-3224. 被引量：3
4李闯,韩令贺,杨哲,闫磊,丰超,王振卿.深层—超深层海相碳酸盐岩地震勘探技术发展与攻关方向[J].石油地球物理勘探,2024,59(2):368-379.
5张池,王忠,姜添豪,谢康民.基于并行多注意力的语音增强网络[J].计算机工程,2024,50(4):68-77.
6李宁,肖昊.基于FPGA的稀疏卷积神经网络加速器设计[J].电子测量技术,2024,47(5):1-8.

1李辉,景浩,严康华,徐良浩.基于卷积循环网络与非局部模块的语音增强方法[J].电子科技,2022,35(3):8-15. 被引量：3
2贾海蓉,梅淑琳,张敏.基于双通道神经网络时频掩蔽的语音增强算法[J].华中科技大学学报（自然科学版）,2021,49(6):43-49. 被引量：3
3刘建伟,刘俊文,罗雄麟.深度学习中注意力机制研究进展[J].工程科学学报,2021,43(11):1499-1511. 被引量：32
4蒋光宇.坚持做小事[J].老同志之友（下半月）,2022(3):25-25.
5张宇航,张乾,江漫,苏江涛.基于跳跃连接的生成对抗网络人脸修复算法[J].湖南城市学院学报（自然科学版）,2022,31(2):60-65.
6党宏社,薛萌,郭琴.基于改进的YOLOv4绝缘子掉片故障检测方法[J].电瓷避雷器,2022(1):211-218. 被引量：9
7张栋,徐苏宁,陈兆颂.基于多源数据的哈尔滨空置区域识别分析[J].低温建筑技术,2021,43(12):43-48.
8方东流.群文阅读策略之文本互证--以读《论语·学而篇1.1》为例[J].最小说,2022(2):4-11.
9李奇虹.人工智能时代会计信息生成路径优化研究[J].中国集体经济,2021(36):155-157.
10王飚,程希楠.推动民族特色文化与村寨有机融合——以花腰傣村寨手工艺文化空间更新升级为例[J].乡村振兴,2021(9):74-75.

声学学报

2022年第2期

浏览历史

内容加载中请稍等...

结合注意力机制的改进U-Net网络在端到端语音增强中的应用被引量：8

参考文献4

二级参考文献19

共引文献23

同被引文献63

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

结合注意力机制的改进U-Net网络在端到端语音增强中的应用 被引量：8

参考文献4

二级参考文献19

共引文献23

同被引文献63

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

结合注意力机制的改进U-Net网络在端到端语音增强中的应用被引量：8