噪声情况下采用稀疏非负矩阵分解与深度吸引子网络的人声分离算法被引量：4

Monaural noisy speech separation combining sparse non-negative matrix factorization and deep attractor network

下载PDF

导出

摘要为实现噪声情况下的人声分离,提出了一种采用稀疏非负矩阵分解与深度吸引子网络的单通道人声分离算法。首先,通过训练得到人声与噪声的字典矩阵,将其作为先验信息从带噪混合语音中分离出人声与噪声的系数矩阵;然后,根据人声系数矩阵中不同的声源成分在嵌入空间中的相似性不同,使用深度吸引子网络将其分离为各声源语音的系数矩阵;最后,使用分离得到的各语音系数矩阵与人声的字典矩阵重构干净的分离语音。在不同噪声情况下的实验结果表明,本文算法能够在抑制背景噪声的同时提高分离语音的整体质量,优于结合声噪人声分离模型的对比算法。 The performance of monaural speech separation method is limited when the speech mixture is corrupted by background noise.To obtain the enhanced separated speeches from the noisy mixture,a monaural noisy speech separation method combining Sparse Non-negative Matrix Factorization(SNMF) and Deep Attractor Network(DANet)is proposed.This method firstly decomposes the noisy mixture into coefficients of speech and noise signal.Then the speech coefficient is projected to a high-dimensional embedding space and a DANet is trained to force the embeddings to move to different clusters.The attractor points are used to separate the speech coefficients by masking method,and finally the enhanced separated speeches are reconstructed by the speech basis and their corresponding coefficients.Experimental results in various background noise environments show that the proposed algorithm effectively suppress the noises without decreasing the speech quality of reconstructed speeches by comparison with different baseline methods.

作者葛宛营张天骐范聪聪张天 GE Wanying;ZHANG Tianqi;FAN Congcong;ZHANG Tian(School of Communication and Information Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065)

机构地区重庆邮电大学通信与信息工程学院

出处《声学学报》 EI CAS CSCD 北大核心 2021年第1期55-66,共12页 Acta Acustica

基金国家自然科学基金项目(61671095,61371164,61702065,61701067,61771085) 信号与信息处理重庆市市级重点实验室建设项目(CSTC2009CA2003) 重庆市研究生科研创新项目(CYS17219) 重庆市教育委员会科研项目(KJ130524,KJ1600427,KJ1600429)资助。

关键词分离算法系数矩阵吸引子分离模型噪声情况背景噪声矩阵重构使用深度

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献6

1路成,田猛,周健,王华彬,陶亮.L_(1/2)稀疏约束卷积非负矩阵分解的单通道语音增强方法[J].声学学报,2017,42(3):377-384. 被引量：10
2时文华,倪永婧,张雄伟,邹霞,孙蒙,闵刚.联合稀疏非负矩阵分解和神经网络的语音增强[J].计算机研究与发展,2018,55(11):2430-2438. 被引量：9
3董兴磊,胡英,黄浩,吾守尔·斯拉木.基于卷积非负矩阵部分联合分解的强噪声单声道语音分离[J].自动化学报,2020,46(6):1200-1209. 被引量：3
4李煦,王子腾,王晓飞,付强,颜永红.采用性别相关的深度神经网络及非负矩阵分解模型用于单通道语音增强[J].声学学报,2019,44(2):221-230. 被引量：13
5黄雅婷,石晶,许家铭,徐波.鸡尾酒会问题与相关听觉模型的研究现状与展望[J].自动化学报,2019,45(2):234-251. 被引量：23
6刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：69

二级参考文献80

1Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that im- proves speech intelligibility in noise for normal-hearing lis- teners. The Journal of the Acoustical Society of America, 2009, 126(3): 1486-1494.
2Dillon H. Hearing Aids. New York: Thieme, 2001.
3Allen J B. Articulation and intelligibility. Synthesis Lectures on Speech and Audio Processing, 2005, 1(1): 1-124.
4Seltzer M L, Raj B, Stern R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004, 43(4): 379-393.
5Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015.91 -99.
6Weng C, Yu D, Seltzer M L, Droppo J. Deep neural networks for single-channel multi-talker speech recognition. IEEE/ ACM Transactions on Audio, Speech, and Language Pro- cessing, 2015, 23(10): 1670-1679.
7Boll S F. Suppression of acoustic noise in speech using spec- tral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113-120.
8Chen J D, Benesty J, Huang Y T, Doclo S. New insights into the noise reduction wiener filter. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1218 -1234.
9Loizou P C. Speech Enhancement: Theory and Practice. New York: CRC Press, 2007.
10Liang S, Liu W J, Jiang W. A new Bayesian method incor- porating with local correlation for IBM estimation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3): 476-487.

共引文献104

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：14
2杨海龙,曾祥福,钟维良.多尺度时域单通道语音分离网络设计[J].电声技术,2021,45(10):96-99.
3黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
4吕菲,夏秀渝.基于方位特征的听觉选择性注意计算模型研究[J].自动化学报,2017,43(4):634-644. 被引量：5
5支艳利,张云伟.基于环形麦克风阵列的远场语音识别系统[J].微型电脑应用,2017,33(4):62-64. 被引量：2
6王程,周婉,何军.面向自动音乐生成的深度递归神经网络方法[J].小型微型计算机系统,2017,38(10):2412-2416. 被引量：14
7袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：38
8周健,刘荣敏,窦云峰,路成,陶亮.采用L1/2稀疏约束的梅尔倒谱系数语音重建方法[J].声学学报,2018,43(6):991-999. 被引量：5
9凌佳佳,袁晓兵.联合噪声分类和掩码估计的语音增强方法[J].电子设计工程,2018,26(17):30-34. 被引量：3
10袁文浩,梁春燕,夏斌,孙文珠.一种融合相位估计的深度卷积神经网络语音增强方法[J].电子学报,2018,46(10):2359-2366. 被引量：7

同被引文献13

1李乐,章毓晋.基于双线性型的非负矩阵集分解[J].计算机学报,2009,32(8):1536-1549. 被引量：6
2卢宏,赵知劲,杨小牛.基于行列式和稀疏性约束的NMF的欠定盲分离方法[J].计算机应用,2011,31(2):553-555. 被引量：10
3万义龙,张天骐,王志朝,金静.一种基于几何谱减法和听觉掩蔽效应的语音增强方法[J].微电子学与计算机,2014,31(2):80-84. 被引量：5
4刘中健,赵知劲,尚俊娜.快速NMF盲源分离算法[J].信号处理,2014,30(6):699-705. 被引量：5
5倪晋平,马远良,孙超,童立.用独立成份分析算法实现水声信号盲分离[J].声学学报,2002,27(4):321-326. 被引量：25
6李煜,何世钧.基于投影梯度的非负矩阵分解盲信号分离算法[J].计算机工程,2016,42(2):104-107. 被引量：7
7路成,田猛,周健,王华彬,陶亮.L_(1/2)稀疏约束卷积非负矩阵分解的单通道语音增强方法[J].声学学报,2017,42(3):377-384. 被引量：10
8王艳芳,王敏.一种基于非负矩阵分解的改进FastICA盲源分离方法[J].江苏科技大学学报（自然科学版）,2018,32(2):232-236. 被引量：4
9韩东,盖杉.L1范数约束正交子空间非负矩阵分解[J].计算机系统应用,2018,27(9):205-209. 被引量：2
10朱立娟,赵风海.一种改进的FastICA算法在语音信号盲源分离中的应用[J].电声技术,2019,43(5):64-68. 被引量：4

引证文献4

1章雯,张君,王璐,赵静,鲍明,许耀华.稀疏正交联合约束多通道非负矩阵分解声信号分离算法[J].声学学报,2023,48(1):249-263. 被引量：2
2兰朝凤,陈英淇,林小佳,刘岩,陈旭奇.面向语音分离的GA_FastICA算法[J].哈尔滨理工大学学报,2022,27(6):80-87. 被引量：1
3张锐,吕俊.基于分离结果信噪比估计与自适应调频网络的单通道语音分离技术[J].广东工业大学学报,2023,40(2):45-54. 被引量：1
4兰朝凤,王顺博,郭小霞,韩玉兰,康守强.基于DCNN和BiLSTM的单通道视听融合语音分离方法研究[J].电子学报,2023,51(4):914-921. 被引量：3

二级引证文献6

1李俊兵,曾囿钧,曾孝平,李国军,白晨曦.基于模型数据双驱动的短波MUF短期预测网络[J].通信学报,2023,44(12):99-111. 被引量：1
2岳欢.基于GSP算法和增强现实技术的景观交互系统设计[J].自动化与仪器仪表,2023(12):109-113.
3闫雪姣,陈娟.混合型电子音乐信号重叠时频自动化分离系统设计[J].电子设计工程,2024,32(15):180-184.
4吴玮玮.汽车组合仪表有意电磁干扰空时域联合分离系统设计[J].计算机测量与控制,2024,32(7):252-259.
5陈宇,胡秀秀,王胜.基于多域特征结合CBAM模型的脑电信号抑郁识别[J].哈尔滨理工大学学报,2024,29(3):1-10.
6张旭航,闫雒恒.融合空洞卷积网络的端到端语音识别[J].河南科学,2024,42(10):1405-1414.

1程志友,臧世民.基于相空间重构的电压暂降分类方法[J].安徽大学学报（自然科学版）,2021,45(1):35-42.
2贾麒,廖守亿(指导),张作宇,杨薪洁.重加权稀疏非负矩阵分解的高光谱解混[J].红外与激光工程,2020(S02):283-299. 被引量：6
3邱帅,吕瑞,范辉,万亚民,黄海,杨管金子.基于CAM矩阵的水下机器人容错控制方法[J].水下无人系统学报,2021,29(1):104-110. 被引量：1
4王志盛.改进多尺度CNN网络的运动模糊图像复原算法[J].电脑知识与技术,2021,17(5):201-203. 被引量：1
5王大东,胡希颖,王晓宇.基于U-NET3D的机器人歌声分离[J].吉林师范大学学报（自然科学版）,2021,42(1):111-116. 被引量：2
6钱名军,李引珍,何瑞春,曾海军.基于MI-Granger-NARX融合模型的铁路网规模测算方法[J].铁道学报,2021,43(1):28-38. 被引量：3
7严利雄,韩昊,刘晓华,闻铖,严玲玲,熊超进,陈元,李挺.高压并联电抗器噪声影响因素及其控制措施研究[J].电力电容器与无功补偿,2021,42(1):58-63. 被引量：10
8张镕哲,李桐林,刘财,李福元,邓馨卉,石会彦.基于数据空间和稀疏约束的三维重力和重力梯度数据联合反演[J].地球物理学报,2021,64(3):1074-1089. 被引量：3

声学学报

2021年第1期

浏览历史

内容加载中请稍等...

噪声情况下采用稀疏非负矩阵分解与深度吸引子网络的人声分离算法被引量：4

参考文献6

二级参考文献80

共引文献104

同被引文献13

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

噪声情况下采用稀疏非负矩阵分解与深度吸引子网络的人声分离算法 被引量：4

参考文献6

二级参考文献80

共引文献104

同被引文献13

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

噪声情况下采用稀疏非负矩阵分解与深度吸引子网络的人声分离算法被引量：4