一种改进LSTM训练的语音分离技术

Speech separation technology for improving LSTM training

下载PDF

导出

摘要采用长短时记忆网络进行语音分离,可以很好地利用语音信号的时序相关性,提升分离语音的可懂度,但同时带来计算复杂、训练耗时长等问题,且在语音感知评价提升方面效果不佳。针对此问题,使用参数更少的单元结构对模型进行优化,缩短训练时间;为进一步提升目标语音的语音质量和可懂度,结合自注意力机制对模型输入特征进行优化,抑制噪声主导时频单元对分离结果的影响。为了更好地匹配语音分离的各性能指标,提出与语音评价指标相关的损失函数,并将其运用到训练准则中,用于改进系统性能。通过实验证明,经过多方面优化后的语音分离系统,不仅可以有效缩短训练时间,而且实现了分离语音性能指标的综合提升。 Using long and short⁃term memory network to separate speech can make good use of the temporal correlation of speech signals and improve the intelligibility of separated speech,but at the same time,it brings problems such as complex calculation,long training time and so on,and the effect of improving speech perception and evaluation is not good.To solve this problem,the unit structure with fewer parameters is used to optimize the model and shorten the training time;in order to further improve the speech quality and intelligibility of the target speech,the input characteristics of the model are optimized by combining the self attention mechanism to suppress the influence of noise dominated time⁃frequency unit on the separation results;in order to better match the performance indicators of speech separation,the speech evaluation index is proposed.The loss function is used to improve the performance of the system.Experiments show that the optimized speech separation system can not only effectively shorten the training time,but also achieve the comprehensive improvement of speech separation performance.

作者郭佳敏李鸿燕 GUO Jiamin;LI Hongyan(College of Information and Computer,Taiyuan University of Technology,Taiyuan 030024,China)

机构地区太原理工大学信息与计算机学院

出处《电子设计工程》 2021年第11期140-145,150,共7页 Electronic Design Engineering

基金山西省自然科学基金资助项目(201701D121058)。

关键词深度学习语音分离长短时记忆网络自注意力损失函数语音评价指标 deep learning speech separation LSTM self⁃attention loss function voice evaluation indicators

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1黄雅婷,石晶,许家铭,徐波.鸡尾酒会问题与相关听觉模型的研究现状与展望[J].自动化学报,2019,45(2):234-251. 被引量：20
2秦焕丁,娄景艺,刘昭.基于最小均方误差幅度谱的改进语音增强算法研究[J].电子技术（上海）,2016,0(7):11-14. 被引量：4
3刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：67
4戴红霞,唐於烽,赵力.基于维纳滤波与理想二值掩蔽的数字助听器语音增强算法[J].电子器件,2019,42(4):994-997. 被引量：6
5谢秋云,肖铁军.语音MFCC特征提取的FPGA实现[J].计算机工程与设计,2008,29(21):5474-5475. 被引量：7
6Veton Z.Kepuska,Hussien A.Elharati.Robust Speech Recognition System Using Conventional and Hybrid Features of MFCC,LPCC,PLP,RASTA-PLP and Hidden Markov Model Classifier in Noisy Conditions[J].Journal of Computer and Communications,2015,3(6):1-9. 被引量：7
7陶睿杰,章征宇,陈蕾.基于XC7A35T与STM32F103RCT6的智能语音小车系统设计[J].电子设计工程,2018,26(3):170-174. 被引量：10
8傅洪亮,雷沛之.基于去噪自编码器和长短时记忆网络的语音测谎算法[J].计算机应用,2020,40(2):589-594. 被引量：4
9李志杰,耿朝阳,宋鹏.LSTM-TextCNN联合模型的短文本分类研究[J].西安工业大学学报,2020,40(3):299-304. 被引量：14
10李云红,王成,王延年.基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J].纺织高校基础科学学报,2018,31(1):103-107. 被引量：9

二级参考文献152

1曹志刚,郑文涛.基于短时谱最小均方误差估计的语音增强和剩余噪声衰减[J].电子学报,1993,21(4):7-12. 被引量：7
2谭保华,熊健民,刘幺和.语音识别技术概述[J].郧阳师范高等专科学校学报,2004,24(6):11-14. 被引量：3
3何援军.透视和透视投影变换——论图形变换和投影的若干问题之三[J].计算机辅助设计与图形学学报,2005,17(4):734-739. 被引量：37
4丁爱明.作为说话人识别特征参量的M FCC的提取过程[J].电子工程师,2006,32(1):51-53. 被引量：10
5陈杰,张玲华.说话人识别中语音特征参数的研究[J].信息技术,2006,30(11):88-89. 被引量：6
6陈伯胜,廖海洋.一种在单片机上提取语音特征参数MFCC的快速算法[J].现代电子技术,2007,30(2):47-48. 被引量：1
7Hung Jeih-weih.Optimization of filter-bank to improve the extraction of MFCC features in speech recognition [C]. Proceedings of International Symposium on Intelligent Multimedia, Video and Speech Processing,2004:675-678.
8Wei HAN,Cheong-Fat CHAN,Chiu-Sing CHOY, et al. An efficient MFCC extraction method in speech recognition[C]. Proceedings of IEEE International Symposium on Circuits and Systems, 2006:408-412.
9张鹏,张艳宁,付中华,张亚娟.基于MMSE-LSA语音增强算法在非平稳环境下的研究与实现[J].计算机工程与设计,2007,28(19):4695-4697. 被引量：6
10Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that im- proves speech intelligibility in noise for normal-hearing lis- teners. The Journal of the Acoustical Society of America, 2009, 126(3): 1486-1494.

共引文献150

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：13
2杨海龙,曾祥福,钟维良.多尺度时域单通道语音分离网络设计[J].电声技术,2021,45(10):96-99.
3王光艳,赵晓群,王霞.基于MATLAB GUI的语音信号特征提取系统设计[J].河北工业大学学报,2010,39(4):14-18. 被引量：11
4姜干新,陈伟.嵌入式语音识别系统中的DTW在线并行算法[J].计算机应用研究,2010,27(3):977-980. 被引量：5
5陈勇,李晶皎,石鑫,张莉佳.基于FPGA的说话人识别系统设计[J].电子技术应用,2012,38(11):16-18. 被引量：1
6王赫楠,燕燕,王甜宇,王和禹.DTW算法在嵌入式语音识别系统中的应用研究[J].科技创新导报,2014,11(8):71-71. 被引量：2
7郭霞,谭亚丽,申淼.基于FDC2214的手势识别系统[J].传感器与微系统,2018,37(12):90-92. 被引量：25
8黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
9张澍.音频声纹比对识别技术在广电监管中应用的技术探讨[J].内蒙古广播与电视技术,2014,31(4):63-69. 被引量：1
10成利江,景新幸,杨海燕.基于SOC FPGA的车载语音识别系统设计[J].桂林电子科技大学学报,2016,36(6):454-460. 被引量：1

1吕少娟.巧用课堂评价提升小学语文读写结合教学质量[J].好日子,2021(10):278-278.
2周玲.运用“四环式”PTA量表评价提升学生科学探究能力 ——以《探究重力大小的相关因素》为例[J].试题与研究（教学论坛）,2021(6):87-90. 被引量：1
3张艳明.基于Maxwell通过傅里叶变换获取谐波幅值的方法[J].装备维修技术,2021(11):0098-0098.
4高涛,马莲,罗奕,孙勇刚.声门塞音对鼻音计评价腭咽闭合状态的影响[J].中华口腔医学杂志,2020,55(12):958-962. 被引量：2
5周爱美.自动门无刷直流电机齿槽转矩优化设计[J].机电工程技术,2021,50(4):211-214. 被引量：1
6何文龙,高长丰,黎塔,刘建.基于对抗训练的端到端语音翻译研究[J].信号处理,2021,37(5):893-901. 被引量：3
7李蓉蓉,王缘,刘勇,王延妮,刘哲,马凤森.金属和可溶性微针及其使用参数对皮肤孔道形成与闭合的影响[J].药学学报,2021,56(4):1163-1169. 被引量：6
8曹旸,金炜.扭矩倍增器校准方法及测量不确定度评估[J].计量科学与技术,2021,65(4):52-57. 被引量：3
9丁烨毅,杨栋,朱佳敏,陈妙金,李从初,魏莎莎,徐红霞.基于灾害指数的奉化水蜜桃气象产量模拟[J].生态学杂志,2021,40(4):1146-1153. 被引量：4

电子设计工程

2021年第11期

浏览历史

内容加载中请稍等...

一种改进LSTM训练的语音分离技术

参考文献12

二级参考文献152

共引文献150

相关作者

相关机构

相关主题

浏览历史