采用上下文相关的注意力机制及循环神经网络的语音增强方法被引量：4

Speech enhancement method using context-sensitive attention mechanism and recurrent neural network

下载PDF

导出

摘要提出了采用上下文相关的注意力机制及循环神经网络的语音增强方法。该方法在训练阶段联合训练计算注意力评分的多层感知机和增强语音的深度循环网络,在测试阶段计算每一帧语音的注意力向量并与该帧语音拼接输入深度循环网络增强。在不同信噪比的实验中,该方法相比基线模型能更好地提高语音质量和可懂度,-6 dB下相对带噪语音短时客观可懂度(STOI)和语音质量感知评估(PESQ)可分别提高0.16和0.77,同时在未知噪声条件下该方法性能仍最优或接近最优。因此注意力机制可以有效强化模型对上下文信息的利用能力,从而提高模型增强性能。 In order to make full use of context information to enhance speech,a speech enhancement method using context-sensitive attention mechanism and recurrent neural network is proposed.Firstly,in the training phase,a multi-layer perceptron for calculating attention weights and a deep recurrent neural network for enhancing speech are jointly trained,and in the test phase,the attention vector of each frame is calculated and spliced with this frame,then fed the concatenated frame into the deep recurrent network to realize speech enhancement.In the experiments with different signal-to-noise ratios,our method can improve speech quality and intelligibility better than the baseline model.At-6 dB,STOI(Short-Time Objective Intelligibility)and PESQ(Perceptual Evaluation of Speech Quality)can be increased by 0.16 and 0.77 respectively compared with the noisy speech.At the same time,the performance of the method is still optimal or near optimal under the condition of unknown noise.Therefore,the introduction of the attention mechanism can effectively strengthen the ability to use context information of the model,thus improving its enhanced performance.

作者蓝天惠国强李萌吕忆蓝刘峤 LAN Tian;HUI Guoqiang;LI Meng;Lü Yilan;LIU Qiao(School of Information and Softuare Engineering.University of Electronic Science and Technology of China,Chengdu 610054;CETC Key Laboratory of Aerospace Information Applications,Shijiazhuang 050081)

机构地区电子科技大学信息与软件工程学院中国电子科技集团公司航天信息应用技术重点实验室

出处《声学学报》 EI CSCD 北大核心 2020年第6期897-905,共9页 Acta Acustica

基金国家自然科学基金项目(U19B2028,61772117) 科技委创新特区项目(19-H863-01-ZT-003) 提升政府治理能力大数据应用技术国家工程实验室重点项目(10-2018039) 四川省科技服务业示范项目(2018GFW0150) 中央高校基本科研业务费项目(ZYGX2019J077)资助。

关键词循环神经网络注意力机制多层感知机可懂度测试阶段基线模型语音增强上下文信息

分类号 TP183 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨琳,张建平,颜永红.单通道语音增强算法对汉语语音可懂度影响的研究[J].声学学报,2010,35(2):248-253. 被引量：17
2LI Chao LIU Wenju.A signal subspace dimension estimator based on F-norm with application to subspace-based multi-channel speech enhancement[J].Chinese Journal of Acoustics,2012,31(3):353-368. 被引量：2
3陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
4郑成诗,胡笑浒,周翊,李晓东.基于噪声谱结构特性的谱减法[J].声学学报,2010,35(2):215-222. 被引量：19
5SHEN Yaqiang (Zhejiang Normal Universily, Zhejiang 321004).A speech enhancement method based on Kalman filtering[J].Chinese Journal of Acoustics,1994,13(3):231-237. 被引量：2

二级参考文献47

1王晶,傅丰林,张运伟.语音增强算法综述[J].声学与电子工程,2005(1):22-26. 被引量：21
2张家禄齐士钤宋美珍等.汉语声调在言语可懂度中的重要作用.声学学报,1981,7:237-237.
3Benesty J, Makino S, Chen J. Speech enhancement. New York: Springer, 2005.
4Brandstein M, Ward D. (Eds.). Microphone arrays signal processing techniques and applications. New York: Springer, 2001.
5Deller J R, Proakis J G, Hansen J H L. Discrete-time processing of speech signals. New York: Macmillan Publishing Company, 1993.
6Ephraim Y, Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Trans. on ASSP, 1985; 33(2): 443-445.
7Cappe O. Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor. IEEE Trans. on SAP, 1994; 2(2): 345-349.
8Boll S F. Suppression of acoustic noise in speech using spectral subtraction. IEEE Trans. on ASSP, 1979; 27(2): 113-120.
9Gustafsson H, Nordholm S E, Claesson I. Spectral Subtraction Using Reduced Delay Convolution and Adaptive Averaging. IEEE Trans. on SAP, 2001; 9(8): 799-807.
10Hu Y, Loizou P C. Speech enhancement based on wavelet thresholding the multitaper spectrum. IEEE Trans. on ASLP, 2004; 12(1): 59-67.

共引文献70

1姜占才,袁海良.基于时域与小波域相结合的语音增强技术[J].青海师范大学学报（自然科学版）,2006,22(3):20-22.
2施晓敏,顾济华,陶智,赵鹤鸣,张晓俊.基于听觉感知小波变换的电子耳蜗CIS语音信号处理[J].微电子学与计算机,2006,23(12):41-43. 被引量：3
3吴红卫,吴镇扬,赵力.基于多窗谱的心理声学语音增强[J].声学学报,2007,32(3):275-281. 被引量：12
4张晓俊,陶智,顾济华,赵鹤鸣,施晓敏.基于听觉感知和概率神经网络的语音识别模型[J].计算机工程与应用,2007,43(19):30-31.
5乔杰,赵力,邹采荣.利用人耳听觉特性的子带双声道回波抵消[J].应用科学学报,2007,25(4):331-336. 被引量：6
6施晓敏,顾济华,陶智,赵鹤鸣,张晓俊.基于听觉感知的电子耳蜗共振峰提取方案[J].计算机工程与应用,2007,43(29):232-234. 被引量：1
7黄雅婷,顾济华,陶智,赵鹤鸣,吴迪.一种Bark子波变换的电子耳蜗语音增强算法[J].计算机工程与应用,2008,44(5):215-217. 被引量：3
8王智国,吴及,戴礼荣,王仁华.一种对加性噪声和信道函数联合补偿的模型估计方法[J].声学学报,2008,33(3):238-243. 被引量：5
9黄雅婷,陶智,顾济华,赵鹤鸣,严冬明.基于人耳掩蔽效应的电子耳蜗语音增强方法[J].计算机工程,2008,34(10):280-282. 被引量：2
10王霞,卢建国,张秀珍,赵晓群.一种基于人耳掩蔽效应和无语音概率的谱减语音增强算法[J].现代电子技术,2008,31(10):116-119. 被引量：1

同被引文献20

1陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
2郑成诗,胡笑浒,周翊,李晓东.基于噪声谱结构特性的谱减法[J].声学学报,2010,35(2):215-222. 被引量：19
3王娜娜,刘涤尘,廖清芬,陈恩泽,黄涌,赵红生.基于EMD-TEO及信号能量分析法的主导低频振荡模式识别[J].电工技术学报,2012,27(6):198-204. 被引量：24
4唐贵基,王晓龙.参数优化变分模态分解方法在滚动轴承早期故障诊断中的应用[J].西安交通大学学报,2015,49(5):73-81. 被引量：339
5刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：69
6王智超,张鹏远,潘接林,颜永红.连接时序分类准则声学建模方法优化[J].声学学报,2018,43(6):984-990. 被引量：2
7袁文浩,娄迎曦,梁春燕,王志强.感知联合优化的深度神经网络语音增强方法[J].西安电子科技大学学报,2019,46(2):89-94. 被引量：4
8王卫梅,王雁,贾海蓉.Gammatone域特征在IRM-DBN语音增强中的有效性研究[J].内蒙古大学学报（自然科学版）,2019,50(6):666-673. 被引量：1
9鲍长春,项扬.基于深度神经网络的单通道语音增强方法回顾[J].信号处理,2019,35(12):1931-1941. 被引量：18
10时文华,张雄伟,邹霞,孙蒙,李莉.联合深度编解码网络和时频掩蔽估计的单通道语音增强[J].声学学报,2020,45(3):299-307. 被引量：11

引证文献4

1邢璐,李鸿燕,张昱,任健.改进多级混合注意力跳变连接的语音增强算法[J].电子设计工程,2023,31(8):15-20. 被引量：1
2刘作桢,吴愁,黎塔,赵庆卫.面向自定义语音唤醒的关键词相关的单通道语音增强[J].声学学报,2023,48(2):415-424. 被引量：5
3杨弋,胡琦,张鹏远.双路注意力循环网络的轻量化语音分离[J].声学学报,2023,48(5):1060-1069.
4王洪涛,毛露露.BDO与VMD-EAM算法融合的单通道语音增强模型[J].自动化与仪表,2024,39(9):131-137.

二级引证文献6

1虞秋辰,周若华,袁庆升.基于Ghost-SE-Res2Net的多模型融合语音唤醒词检测方法[J].计算机工程,2024,50(3):52-59. 被引量：1
2苏晓华,康晓东.基于语音识别的博物馆讲解机器人自动交互系统[J].自动化与仪器仪表,2024(2):178-181. 被引量：1
3张丽华,王志梅.基于语音增强的改进型英语课堂交互系统的研究[J].电声技术,2024,48(2):39-41.
4李奎.基于语音指令的对讲指挥调度系统的设计与实现[J].电声技术,2024,48(4):38-41.
5张恒,拉巴顿珠,官政先,肖鑫.基于深度神经网络的藏语语音关键词检索方法[J].西藏科技,2024,46(6):73-80.
6王洪涛,毛露露.BDO与VMD-EAM算法融合的单通道语音增强模型[J].自动化与仪表,2024,39(9):131-137.

1苗晓晓,张健,索宏彬,周若华,颜永红.应用于短时语音语种识别的时长扩展方法[J].清华大学学报（自然科学版）,2018,58(3):254-259. 被引量：7
2张丽,吕军,强彦,刘继华.基于深度信念网络的语音情感识别[J].太原理工大学学报,2019,50(1):101-107. 被引量：8
3张明亮,陈雨.基于全卷积神经网络的语音增强算法[J].计算机应用研究,2020,37(S01):135-137. 被引量：7
4樊良辉,韩俊刚,王怡斐.基于条件生成对抗网络的语音增强[J].计算机与数字工程,2020,48(8):1939-1942. 被引量：3
5张开生,赵小芬.双重约束非负矩阵分解与改进正交匹配追踪算法的语音增强[J].河南科技大学学报（自然科学版）,2021,42(1):54-60. 被引量：4
6刘虹,袁三男.基于多尺度残差深度卷积神经网络的语音识别[J].计算机应用与软件,2020,37(11):275-279. 被引量：11
7尉桢楷,程梦,周夏冰,李志峰,邹博伟,洪宇,姚建民.基于类卷积交互式注意力机制的属性抽取研究[J].计算机研究与发展,2020,57(11):2456-2466. 被引量：9
8管海清,张徐垚.利用频谱排序和筛选的突变噪声快速估计[J].电讯技术,2020,60(11):1330-1335.
9梁振涛,潘卫清.基于小波变换的自适应阈值去噪算法[J].计算机产品与流通,2020(11):139-140. 被引量：7
10周瑾,乔树山,凌康,詹毅,蒋见花.基于G.729的快速固定码书搜索算法[J].微电子学与计算机,2020,37(11):13-16. 被引量：1

声学学报

2020年第6期

浏览历史

内容加载中请稍等...

采用上下文相关的注意力机制及循环神经网络的语音增强方法被引量：4

参考文献5

二级参考文献47

共引文献70

同被引文献20

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

采用上下文相关的注意力机制及循环神经网络的语音增强方法 被引量：4

参考文献5

二级参考文献47

共引文献70

同被引文献20

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

采用上下文相关的注意力机制及循环神经网络的语音增强方法被引量：4