基于双微阵列与卷积神经网络的语音识别方法被引量：13

Speech recognition method based on dual micro-array and convolutional neural network

下载PDF

导出

摘要为解决噪声环境下语音识别率降低以及传统波束形成算法难以处理空间噪声的问题,基于双微阵列结构提出了一种改进的最小方差无畸变响应(MVDR)波束形成方法。首先,采用对角加载提高双微阵列增益,并利用递归矩阵求逆降低计算复杂度;然后,通过后置调制域谱减法对语音作进一步处理,解决了一般谱减法容易产生音乐噪声的问题,有效减小了语音畸变,获得了良好的噪声抑制效果;最后,采用卷积神经网络(CNN)进行语音模型的训练,提取语音深层次的特征,有效地解决了语音信号多样性问题。实验结果表明,提出的方法在经CNN训练的语音识别系统模型中取得了较好的识别效果,在信噪比为10 dB的F16噪声环境下的语音识别率达到了92.3%,具有良好的稳健性。 In order to solve the low speech recognition rate in noise environment,and the difficulty of traditional beamforming algorithm in dealing with spatial noise problem,an improved Minimum Variance Distortionless Response(MVDR)beamforming method based on dual micro-array was proposed.Firstly,the gain of micro-array was increased by diagonal loading,and the computational complexity was reduced by the inversion of recursive matrix.Then,through the modulation domain spectrum subtraction for further processing,the problem that music noise was easily produced by general spectral subtraction was solved,effectively reducing speech distortion,and well suppressing the noise.Finally,the Convolution Neural Network(CNN)was used to train the speech model and extract the deep features of speech,effectively solve the problem of speech signal diversity.The experimental results show that the proposed method achieves good recognition effect in the CNN trained speech recognition system,and has the speech recognition accuracy of 92.3%in F16 noise environment with 10 dB signal-to-noise ratio,means it has good robustness.

作者刘伟波曾庆宁卜玉婷郑展恒 LIU Weibo;ZENG Qingning;BU Yuting;ZHENG Zhanheng(School of Information and Communication,Guilin University of Electronic Technology,Guilin Guangxi 541004,China)

机构地区桂林电子科技大学信息与通信学院

出处《计算机应用》 CSCD 北大核心 2019年第11期3268-3273,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61461011) 广西自然科学基金重点项目(2016GXNSFDA380018) “认知无线电与信息处理”教育部重点实验室主任基金资助项目(CRKL160107,CRKL170108)~~

关键词语音识别双微阵列卷积神经网络噪声环境稳健性 speech recognition dual micro-array Convolutional Neural Network(CNN) noise environment robustness

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1曾庆宁,肖强,王瑶,谢先明,龙超.一种双微阵列语音增强方法[J].电子与信息学报,2018,40(5):1187-1194. 被引量：8
2张晴晴,刘勇,潘接林,颜永红.基于卷积神经网络的连续语音识别[J].工程科学学报,2015,37(9):1212-1217. 被引量：70
3陈紫强,李欣阳,谢跃雷.结合相位谱补偿的调制域谱减法[J].信号处理,2015,31(4):468-473. 被引量：9
4施荣华,孟秋杰,董健,郭迎.一种基于对角载入的鲁棒MVDR波束形成算法[J].湖南大学学报（自然科学版）,2012,39(9):57-61. 被引量：4
5马金龙,曾庆宁,龙超,谢先明.多噪声环境下可懂度提升的助听器语音增强[J].计算机工程与设计,2016,37(8):2160-2164. 被引量：5

二级参考文献36

1冯琳,段复建.基于锥模型的非单调自适应信赖域算法[J].山西大学学报（自然科学版）,2011,34(4):580-586. 被引量：2
2KROLIK J L. The performance of matched-field beamformers with Mediterranean vertical array data [J]. IEEE Trans Signal Processing, 1996, 44(10): 2605-2611.
3GERSHMAN A B, TURCHIN V I, ZVEREV V A. Experi- mental results of localization of moving underwater signal by a- daptive beamforming [J].IEEE Trans Signal Processing, 1995, 43(10) t 2249-2257.
4HARRYI.ANDVANTREES.最优阵列处理技术[M].汤俊译.北京:清华大学出版社,2008:382-392.
5CARLSON B D. Covariance matrix estimation errors and diag- onal loading in adaptive arrays[J].IEEE Trans on Aerospace and Electronic Systems, 1988, 24 (4): 397-401.
6VOROBYOV S A, GERSHMAN A B, LUO Z Q. Robust a- daptive beamforming using worst-case performance optimiza- tion: a solution to the signal mismatch problem [J]. IEEE Trans Signal Processing (S1053-587X), 2003, 51(2) : 313- 323.
7GUERCI J R. Theory and application of covarianee matrix ta- per for robust adaptive beamforming[J]. IEEE Trans on Sig- nal Processing, 1999, 47 (4): 977-985.
8Bemuti M, Schwartz R, Makhoul J. Enhancement of speech corrupted by acoustic noise [ C ]//Acoustics, Speech, and Signal Processing, IEEE International Conference on IC- ASSP'79. IEEE, 1979, 4: 208-211.
9Kamath S, Loizou P. A multi-band spectral subtrac- tion method for enhancing speech corrupted by colored noise[ C ]//Acoustics, Speech, and Signal Processing (ICASSP) , 2002 IEEE International Conference on. IEEE, 2002, 4 : 4164.
10Cao L, Zhang T Q, Gao H, et al. Multi-band spectral sub- traction method combined with auditory masking properties for speech enhancement [ C ]// Image and Signal Processing (CISP), 2012 5th International Congress on. IEEE, 2012: 72 -76.

共引文献90

1白雄文,王红艳,孙宇,周炼赤.基于人工智能的自然语言处理技术分析[J].电子技术（上海）,2021(1):176-177. 被引量：4
2张怡,杨琼,唐成凯.基于有色载入的GPS自适应调零天线抗干扰算法[J].西北工业大学学报,2015,33(5):874-878. 被引量：3
3胡丹,曾庆宁,龙超.调制域谱减法用于鲁棒性语音识别[J].科学技术与工程,2016,16(4):216-220. 被引量：5
4景维鹏,张兴革.基于POWER8的动态自适应池化算法[J].计算机工程,2016,42(5):207-212. 被引量：1
5曾雪琼,黎杰.基于卷积神经网络的时频图像识别研究[J].机械与电子,2016,34(5):25-29. 被引量：6
6程小伟,王健,曾庆宁,谢先明,龙超.基于调制域谱减法的鲁棒性说话人识别[J].科学技术与工程,2017,17(3):252-257. 被引量：5
7方宁,周宇,叶庆卫,李玉刚.基于无监督学习卷积神经网络的振动信号模态参数识别[J].计算机应用,2017,37(3):786-790. 被引量：11
8董刚,马宏伟,南源桐,马琨.刮板输送机飘链故障诊断技术研究[J].煤炭科学技术,2017,45(5):41-46. 被引量：8
9贾京龙,余涛,吴子杰,程小华.基于卷积神经网络的变压器故障诊断方法[J].电测与仪表,2017,54(13):62-67. 被引量：84
10侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：81

同被引文献89

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：14
2胡宇翔,陈嘉馨,钟海辉,陈向前,雷巧云.基于语音识别技术的智能家居控制系统的设计[J].汽车世界,2020(2):33-33. 被引量：1
3郭莉,殷南,王炳锡.语音业务中鲁棒性VAD算法分析[J].电声技术,2005,29(9):41-45. 被引量：9
4周亦敏,牟同鑫.采用复倒谱和子串匹配的音频指纹算法研究[J].上海理工大学学报,2010,32(3):277-280. 被引量：3
5周夕良.基于μ律拟合的小波自适应阈值去噪算法[J].计算机工程与应用,2011,47(27):141-143. 被引量：6
6明建成,韩威.基于音频指纹的压缩域音频识别方法研究[J].科学技术与工程,2014,22(16):83-87. 被引量：3
7梁娟.英语翻译器语音识别系统的设计及功能实现[J].微型电脑应用,2018,34(12):46-48. 被引量：9
8张秀,李念祖,李晓强,王淞昕,李会永,李伟.基于Chroma-based BOW特征的多版本音乐识别[J].小型微型计算机系统,2015,36(2):397-400. 被引量：6
9苏奇全,贾宏光,朱明超,刘慧,宣明.基于递推闭环子空间辨识的自适应预测控制方法[J].信息与控制,2015,44(2):252-256. 被引量：21
10张晴晴,刘勇,潘接林,颜永红.基于卷积神经网络的连续语音识别[J].工程科学学报,2015,37(9):1212-1217. 被引量：70

引证文献13

1邓家斌.智能趣味陪护机器人系统设计[J].科学大众（科技创新）,2019,0(11):125-125.
2张国荣,刘炳君,付成丽.基于Python和CNN的数字验证码识别[J].太原师范学院学报（自然科学版）,2020,19(3):62-65. 被引量：5
3陈林,洪志云.语音家电全双工对话技术测试方法研究[J].日用电器,2021(1):58-64. 被引量：1
4江昱欣,张红兵.语音信号增强技术在语音识别中的应用[J].电子技术与软件工程,2021(6):70-71. 被引量：2
5刘红梅.基于音频指纹技术的乐曲节拍识别系统[J].微型电脑应用,2021,37(7):137-139. 被引量：1
6黄程程,董霄霄,李钊.基于二维Winograd算法的深流水线5×5卷积方法[J].计算机应用,2021,41(8):2258-2264. 被引量：1
7刘志华,陈文洁,陈爱斌.基于自注意力机制时频谱同源特征融合的鸟鸣声分类[J].计算机应用,2022,42(4):1260-1268. 被引量：3
8田伟伟.语音识别架构下英语口语考试辅助评分系统[J].自动化技术与应用,2022,41(5):168-170. 被引量：1
9温湛靓.基于智能算法的英语翻译器语音识别方法[J].自动化与仪器仪表,2022(12):162-165.
10薛雅洁,贺红霞,杨祎.基于神经网络的语音信号识别与分类[J].现代电子技术,2023,46(24):79-84. 被引量：1

二级引证文献15

1聂霖,郑传广,徐莹,陈柔,王昱晴,孙皓天.基于机器视觉的燃烧碳化面积测量方法研究[J].计算机测量与控制,2021,29(4):59-64. 被引量：2
2袁炜,魏远旺,蔡修豪,甘理财,李永刚.基于密集连接卷积神经网络的字符验证码识别[J].信息与电脑,2021,33(13):56-61.
3邓震.基于CNN与GRU单元的验证码识别[J].无线互联科技,2021,18(16):117-119.
4张婷,马延周,李宏欣.基于DCNN的语音识别降噪方法研究[J].现代电子技术,2021,44(23):48-51. 被引量：3
5思媛媛.基于频谱特征的自动翻译机语音信号识别方法[J].自动化与仪器仪表,2022(6):32-35.
6黄一英,邓开发,邬春学.基于空间自适应哈希算法的并行双音频指纹技术[J].计算机应用研究,2022,39(7):2076-2080.
7李建平,王钊.基于PSO-CNN的验证码识别算法研究[J].计算机技术与发展,2022,32(9):51-55. 被引量：4
8孙琳,来振亚,司立峰,李步志.语音识别在智能厨电中的研究现状及展望[J].上海煤气,2022(6):5-7.
9李怀城,杨道武,温治芳,王亚楠,陈爱斌.基于Inception-CSA深度学习模型的鸟鸣分类[J].华中农业大学学报,2023,42(3):97-104. 被引量：2
10罗军平.基于费希纳对数定律的计算机英语语音评分测试误差分析研究——以绍兴文理学院为例[J].电脑知识与技术,2023,19(13):113-115.

1王启梁.法学研究的“田野”[J].中国社会科学文摘,2017,0(8):111-112.
2窦鹏程,段娟,王万春,吴韧,朱威宏,黄添隆,李丁.骨关节炎关节软骨细胞基因表达谱的芯片研究[J].医学信息（医学与计算机应用）,2016,29(26):158-159.
3李冬娟.基于免培养的微生物群落多样性研究方法概述[J].长沙大学学报,2019,33(5):73-76. 被引量：4
4张艺森,王梦洋,张文林,唐成和.miR-23a-3p靶向SMC1A调控急性髓系白血病细胞的增殖迁移和凋亡能力及其作用机制[J].中华肿瘤杂志,2019,41(10):753-759. 被引量：4
5吴赟,洪雨天,王泽涌.噪声环境下语音识别优化研究[J].现代科学仪器,2019,0(3):61-64. 被引量：2
6吕军辉.两种改进的谱减降噪处理算法对比分析[J].山东农业大学学报（自然科学版）,2019,50(5):849-851. 被引量：4
7欧阳鲁平,周桂,易赏,张月,韦慧,桂宝恒,王锦.单核苷酸多态性微阵列芯片技术在胎儿鼻骨缺失检测中的应用[J].中华妇幼临床医学杂志（电子版）,2019,15(5):541-546. 被引量：2
8王正欢,周生龙,杨亚宁,王卓.基于鲁棒自适应波束形成的抗干扰测控通信[J].遥测遥控,2019,40(4):23-28.
9陈昊泽,张志杰.基于能量和频带方差结合的语音端点检测方法[J].科学技术与工程,2019,19(26):249-254. 被引量：11
10张霞,袁鑫.双麦阵列的联合语音增强算法[J].电子器件,2019,42(5):1274-1277. 被引量：4

计算机应用

2019年第11期

浏览历史

内容加载中请稍等...

基于双微阵列与卷积神经网络的语音识别方法被引量：13

参考文献5

二级参考文献36

共引文献90

同被引文献89

引证文献13

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于双微阵列与卷积神经网络的语音识别方法 被引量：13

参考文献5

二级参考文献36

共引文献90

同被引文献89

引证文献13

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于双微阵列与卷积神经网络的语音识别方法被引量：13