一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用被引量：10

New Feature Extraction Method Based on Bottleneck Deep Belief Networks and its Application in Language Recognition

下载PDF

导出

摘要在语种识别中,传统的MFCC特征由于每帧信号上的信息量不足,很容易受到噪声污染,且抗噪能力较弱。同时,目前普遍使用的SDC特征提取方法在参数选择上需要人为设定,这增加了识别结果的不确定性。针对上述不足,将深度学习方法引入特征提取之中,提出了基于瓶颈深度信念网络的特征提取方法。最后在NIST2007数据库上对瓶颈层的大小、隐层数目以及瓶颈层位置进行了相关的对比实验,结果表明,提出的方法相对于传统的特征提取方法能够取得更高的识别率。 In language recognition,due to the insufficiency of information in each frame,traditional MFCC feature extraction is easily suffered from noise pollution.Meanwhile,the general method of SDC feature extraction depends on artificially setting in parameter selection which increases the uncertainty of recognition performance.In order to overcome these drawbacks,the deep learning method was introduced and a novel feature extraction approach named BN-DBN which is based on deep learning was proposed.Finally,the relevant comparative experiments for the bottleneck layer size,the number of hidden layers and the position of the bottleneck layer were carried out in NIST2007 database.Experimental results show that extraction method of the bottleneck features based on deep belief networks are more effective in language recognition,compared with traditional methods.

作者李晋徽杨俊安王一

机构地区电子工程学院电子制约技术安徽省重点实验室

出处《计算机科学》 CSCD 北大核心 2014年第3期263-266,共4页 Computer Science

基金国家自然科学基金项目(61272333)资助

关键词语种识别瓶颈特征深度信念网络 Language recognition Bottleneck features Deep belief networks

分类号 TM344.1 [电气工程—电机]

引文网络
相关文献

参考文献18

1Rabiner L R,Sambur M R.An algorithm for determining the endpoints of isolated utterances[J].The Bell System Technical Journal,1975,54(2):297-315.
2Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[C] //Digital Signal Processing.2000:19-41.
3Campbell W M,Sturim D E,Reynolds D A.Support vector machines using GMM supervectors for speaker verification[J].IEEE Signal Processing Letters,2006,13:308-11.
4Bilmes JA.Maximum mutual information based reduction strategies for cross-correlation based joint distribution modeling[C] //IEEE Int.Conf.Acoust.,Speech,Signal Processing (ICASSP).Seattle,USA,May 1998.
5Yang H H,Sharna S,van Vuuren S,et al.Relevance of timefrequency features for phonetic and speaker-channel classification[J].Speech Communication,2000,31 (1):35-50.
6Fousek P,Lamel L,Gauvain J-L.Transcribing Broadcast Data using MLP Features[C] //Proceedings of Interspeech.2008.
7Park J,Diehl F,Gales M,et al.Training and Adapting MLPFeatures for Arabic Speech Recognition[C] //Proc,of IEEE Conf.Acoust.Speech Signal Process(ICASSP).2009.
8Picheny M,Nahamoo D,Goel V,et al.Trends and Advances in Speech Recognition[J].IBM Journal of Research and Development,2011,55(5):2.
9Deng L.An Overview of Deep-Structured Learning for Information Processing[C] //APSIPA ASC 2011.Xi'an:2011.
10Hinton G E,Osindero S,Teh Y.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18:1527-1554.

二级参考文献7

1Navrátil J.Spoken language recognition-a step toward multilinguality in speech processing[J].IEEE Transactions on Speech and Audio Processing,2001,9(6):678-685.
2Zissman M A.Comparison of four approaches to automatic language identification of telephone speech[J].IEEE Transactions on Speech and Audio Processing,1996,4(1):31-46.
3Torres-Carrasquillo P A,Singer E,Kohler M A,et al.Approaches to language identification using Gaussian mixture models and shifted delta cepstral features[C]//ICSLP.Denver,CO:IEEE Press,2002:89-92.
4Torres-Carrasquillo P A,Reynolds D A,Deller J R.Language identification using Gaussian mixture model tokenization[C]//ICASSP.Orlando,FL:IEEE Press,2002:757-760.
5Singer E,Torres-Carrasquillo P A,Gleason T P,et al.Acoustic,phonetic and discriminative approaches to automatic language recognition[C]//Eurospeech.Geneva,CH:Institate for Perceptual Artificial Intelligence,2003:1345-1348.
6Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10:19-41.
7Backfried G,Rainoldi R,Riedler J.Automatic language identification in broadcast news[C]//IJCNN.Honolalu,HI:IEEE Press,2002,2:1406-1410.

共引文献1

1田昕,唐皓,余江,蔡光卉,肖文珂.GMM-UBM语种识别技术在无线电监管中的应用[J].电子测量技术,2015,38(8):82-84. 被引量：1

同被引文献104

1HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation.2006,18(7):1527-1554.
2JI Nannan,ZHANG Jiangshe,ZHANG Chunxia A sparse - response deep belief network based on rate distortion theory[J]. Pattern Recognition,2014,47(9):3179-3191.
3LIN Miaozhen,XIN Fan.Low resolution face recognition with pose variations using deep belief networks[C]//Proc.20114 th International Congress on Image and Signal Processing.Shanghai:CISP,2011:1522-1526.
4MOHAMED A,DAHL G E,HINTON G.Acoustic modeling using deep belief networks[J].IEEE Trans.Audio,Speech and Language Processing,2012,20(1):14-22.
5DAHL G E,DONG Y,LI D,et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].IEEE Trans.Audio,Speech and Language Processing,2012,20(1):30-42.
6AREL I,ROSE D C, KARNOWSKI T P. Deep machine learn- ing- A new frontier in artificial intelligence research [ J l- Computational intelligence magazine,2010,5(4) :13-18.
7MARKOFF J. Scientists see promise in deep-learning pro- grams [ N ]. The New York Times, 2012-11-23.
8PLIS S M , HJELM D R,SALAKHUTDINOV R,et al. Deep learning for neuroimaging: a validation study [ J ] Frontiers in neuroscience,2014( 8 ) :229.
9ELFWING S, UCHIBE E, DOYA K. Expected energy-based restricted Boltzmann machine for classification [ J 1- Neural networks, 2015 ( 64 ) : 29 -38.
10MOCANU D C, AMMAR H B. Factored four way conditional restricted Boltzmann machines for activity recognition [ J ]. Pattern recognition letters, 2015 (66) : 100-108.

引证文献10

1高强,李倩.基于多尺度主线方向特征的DBN分类方法[J].电视技术,2015,39(15):120-124. 被引量：1
2王媛媛,周涛,吴翠颖.深度学习及其在医学图像分析中的应用研究[J].电视技术,2016,40(10):118-126. 被引量：15
3李姗,徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究[J].计算机技术与发展,2017,27(5):82-86. 被引量：7
4侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：82
5杨洋,汪毓铎.深度学习在语音识别声学建模中的应用[J].电脑知识与技术,2018,14(6X):190-192. 被引量：9
6龙星延,屈丹,张文林.结合瓶颈特征的注意力声学模型[J].计算机科学,2019,46(1):260-264. 被引量：3
7周涛,陆惠玲,霍兵强.深度信念网络研究进展[J].计算机工程与应用,2020,56(9):24-32. 被引量：9
8郑纯军,王春立,贾宁.语音任务下声学特征提取综述[J].计算机科学,2020,47(5):110-119. 被引量：13
9郑文秀,赵峻毅,文心怡,姚引娣.基于瓶颈复合特征的声学模型建立方法[J].计算机工程,2020,46(11):301-305. 被引量：3
10张会云,黄鹤鸣,李伟,康杰,无.语音情感识别研究综述[J].计算机仿真,2021,38(8):7-17. 被引量：19

二级引证文献159

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：13
2朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：4
3张石清,刘瑞欣,赵小明.跨库语音情感识别研究进展[J].计算机系统应用,2022,31(11):31-48.
4马垠飞,王力.融合D-S证据理论的DBN电路故障诊断算法[J].辽宁工程技术大学学报（自然科学版）,2021,40(5):448-453. 被引量：3
5张霞,杨勇,赵力.基于复数帧段特征的语音情感识别方法[J].电子器件,2022,45(2):479-482.
6杨秀芳,陈卓,王驰.基于隐Markov模型的齿轮箱故障识别方法研究[J].电子测量与仪器学报,2020,32(11):115-123. 被引量：6
7李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：82
8抓住机遇深化改革推动邵阳市包装工业稳步发展[J].湖南包装,2000,15(1):10-11.
9范少地,许建中,唐康来,李起鸿.缓慢牵伸肢体延长周围神经亚临床损害修复过程的观察[J].第三军医大学学报,2000,22(5):470-473. 被引量：6
10易雪蓉,黄巍,胡迪,蒋怡.基于HMM的声调语音模型研究[J].武汉工程大学学报,2018,40(6):691-695. 被引量：2

1阳武,李倩,赵继生,高强,余萍.深度信念网络在故障指示器检测中的应用[J].传感器与微系统,2015,34(7):155-157. 被引量：3
2石鑫,朱永利,萨初日拉,王刘旺,孙岗.基于深度信念网络的电力变压器故障分类建模[J].电力系统保护与控制,2016,44(1):71-76. 被引量：82
3李晋徽,杨俊安,项要杰.基于核Fisher判别的分类器算法及其在语种识别中的应用研究[J].计算机科学,2013,40(10):257-260.
4飞兆半导体扩展3.3V光电耦合器精选产品[J].电子与电脑,2010,10(3):66-66.
5高强,阳武,李倩.基于稀疏差异深度信念网络的绝缘子故障识别算法[J].电测与仪表,2016,53(1):19-25. 被引量：11
6朱振山,董飞飞.基于样本熵的次同步振荡检测方法研究[J].陕西电力,2014,42(10):6-9.
7高鲁棒性数字隔离器系列[J].今日电子,2016,0(2):92-92.
8薛蕙,杨仁刚.利用小波包变换实现噪声环境下特征信号的提取[J].继电器,2002,30(7):7-10. 被引量：4
9蔡钿,池波.干式整流变压器电磁设计研究[J].船电技术,2014,34(11):44-47. 被引量：3
10罗骏,周崇雯,汪芳宗,温柏坚,李世明.基于不完全S变换的低频振荡在线辨识方法[J].广东电力,2015,28(7):62-67. 被引量：4

计算机科学

2014年第3期

浏览历史

内容加载中请稍等...

一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用被引量：10

参考文献18

二级参考文献7

共引文献1

同被引文献104

引证文献10

二级引证文献159

相关作者

相关机构

相关主题

浏览历史

一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用 被引量：10

参考文献18

二级参考文献7

共引文献1

同被引文献104

引证文献10

二级引证文献159

相关作者

相关机构

相关主题

浏览历史

一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用被引量：10