基于循环神经网络语言模型的N-best重打分算法被引量：3

N-best Rescoring Algorithm Based on Recurrent Neural Network Language Model

下载PDF

导出

摘要循环神经网络语言模型能够克服统计语言模型中存在的数据稀疏问题,同时具有更强的长距离约束能力,是一种重要的语言模型建模方法。但在语音解码时,由于该模型使词图的扩展次数过多,造成搜索空间过大而难以使用。本文提出了一种基于循环神经网络语言模型的N-best重打分算法,利用N-best引入循环神经网络语言模型概率得分,对识别结果进行重排序,并引入缓存模型对解码过程进行优化,得到最优的识别结果。实验结果表明,本文方法能够有效降低语音识别系统的词错误率。 Recurrent neural network language model （RNNLM ） is an important method in statistical lan‐guage models because it can tackle the data sparseness problem and contain a longer distance constraints . However ,it lacks practicability because the lattice has to expand too many times and explode the search space .Therefore ,a N‐best rescoring algorithm is proposed which uses the RNNLM to rerank the recog‐nition results and optimize the decoding process .Experimental results show that the proposed method can effectively reduce the word error rate of the speech recognition system .

作者张剑屈丹李真

机构地区解放军信息工程大学信息系统工程学院

出处《数据采集与处理》 CSCD 北大核心 2016年第2期347-354,共8页 Journal of Data Acquisition and Processing

基金国家自然科学基金(61175017)资助项目国家高技术研究发展计划("八六三"计划)(2012AA011603)资助项目全军军事学研究生课题(2010JY0258-144)资助项目

关键词语音识别语言模型循环神经网络 N-best重打分缓存语言模型 speech recognition language model recurrent neural network N-best rescoring cache lan-guage model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
2Rosenfeild R. Two decades of statistical language modeling: Where do we go from here? [J]. Proceedings of the IEEE, 2000, 88(8): 1270-1278.
3Sundermeyer M, Sehluter R, Ney H. On the estimation of discount parameters for language model smoothing [C]// The 12th Annual Conference of the International Speech Communication Association. Florence, Italy: ISCA, 2011:1433-1436.
4Deoras A, Mikolov T, Kombrink S, et al. Variational approximation of long-span language models for LVCSR [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic: IEEE, 2011 : 5532-5535.
5Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155.
6Mikolov T, Karafiat M, Burget L, et al. Recurrent neural network based language model [C]//The llth International Speech Communication Association. Makuhari, Chiba, Japan: ISCA, 2010: 1045-1048.
7Sundermeyer M, Oparin I, Gauvain J L, et al. Comparison of feedforward and recurrent neural network language models [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013.- 8430- 8434.
8Schwenk H. Continuous space language models [J]. Computer Speech and Language, 2007, 21(3): 492-518.
9Ire H S, 0parin 1, Allauzen A, et al. Structured output layer neural network language models for speech recognition [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(1): 195-204.
10Mikolov T, Kombrink S, Burger I., et al. Extensions of recurrent neural network language model [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic: IEEE, 2011: 5528-5531.

二级参考文献45

1张建明,陶宏,王良民,詹永照,宋顺林.基于SVD的唇动视觉语音特征提取技术[J].江苏大学学报（自然科学版）,2004,25(5):426-429. 被引量：3
2Murphy K. Dynamic Bayesian networks:representation,inference and learning[D]. Berkeley: University of California, 2002.
3Bilmes J, Zweig G. The graphical modelds toolkit: an open source software system for speech and timeseries processing[C]//Proceedings of the IEEE International Conf on Acoustic Speech and Signal Processing (ICASSP). OrLando, Florida, USA:[s. n.], 2002(4): 3916-3919.
4Bilmes J, Bartels C. Graphical model architectures for speech recognition [J]. IEEE Signal Processing Magazine, 2005, 22(5): 89-100.
5Zweig G. Speech recognition with dynamic Bayesian networks [D]. Berkeley: University of California, 1998.
6Bilmes J, Zweig G, Richardson T, et al. Discriminatively structured graphical models for speech recognition: JHU-WS-2001 final workshop report [EB/OL]. http://www, clsp. jhu. edu/ws2001/ groups/gmsr/GMRO-final-rpt, pdf, Johns Hopkins Univ, Baltimore, MD, Tech Rep CLSP, 2001.
7Lv Guoyun, Jiang Dongmei, Sahli H, et al. A novel DBN model for large vocabulary continuous speech recognition and phone segmentation [C]//International Conference on Artificial Intelligence and Pattern Recognition (AIPR-07). Orlando, USA.. [s. n.] 2007, 1:397-402.
8Young S J, Odell J, Woodland P C. Tree-based state tying for high accuracy acoustic modeling [C]//Proceedings ARPA Workshop on Human Language Technology. Plainsboro, NJ, USA: [s. n. ].1994: 307-312.
9Bilmes J. GMTK: the graphical models toolkit[EB/ OL]. http://ssli, ee. washington, edu/-bilmes/ gmtk/, 2002.
10Alan L. Yuille,Peter W. Hallinan,David S. Cohen.Feature extraction from faces using deformable templates[J]. International Journal of Computer Vision . 1992 (2)

共引文献5

1成培.移动式智能化广播影视视听节目监管平台解决方案[J].科技创新与应用,2013,3(17):23-23. 被引量：2
2邸鹏,段利国.一种新型朴素贝叶斯文本分类算法[J].数据采集与处理,2014,29(1):71-75. 被引量：51
3刘建通.基于Kinect的听障人士语言能力康复辅助系统[J].现代计算机,2016,22(5):92-95. 被引量：1
4马金林,巩元文,马自萍,陈德光,朱艳彬,刘宇灏.唇语识别的视觉特征提取方法综述[J].计算机科学与探索,2021,15(12):2256-2275. 被引量：2
5陶志勇,陈露,刘影,郭京.LipSense:基于CSI相位差的自适应唇语识别方法[J].传感技术学报,2023,36(3):419-426. 被引量：1

同被引文献18

1郑佳佳,曹佩杰.浅谈电力变压器故障与故障诊断分析[J].中文科技期刊数据库（文摘版）工程技术,2016(11):151-151. 被引量：1
2王大忠,徐文,周泽存,陈珩.模糊理论、专家系统及人工神经网络在电力变压器故障诊断中应用──基于油中溶解气体进行分析诊断[J].中国电机工程学报,1996,16(5):349-353. 被引量：43
3潘翀,陈伟根,云玉新,杜林,孙才新.基于遗传算法进化小波神经网络的电力变压器故障诊断[J].电力系统自动化,2007,31(13):88-92. 被引量：61
4陈伟根,潘翀,云玉新,王有元,孙才新.基于改进小波神经网络算法的电力变压器故障诊断方法[J].仪器仪表学报,2008,29(7):1489-1493. 被引量：22
5伊·达瓦,匂坂芳典,中村哲.语料资源缺乏的连续语音识别方法的研究[J].自动化学报,2010,36(4):550-557. 被引量：9
6张明慧,金凤.基于GA优化BP神经网络变压器故障诊断的研究[J].煤矿机械,2012,33(8):257-259. 被引量：7
7李慧.词语相似度算法研究综述[J].现代情报,2015,35(4):172-177. 被引量：17
8王龙,杨俊安,陈雷,林伟,刘辉.基于循环神经网络的汉语语言模型并行优化算法[J].应用科学学报,2015,33(3):253-261. 被引量：7
9王龙,杨俊安,陈雷,林伟.基于循环神经网络的汉语语言模型建模方法[J].声学技术,2015,34(5):431-436. 被引量：5
10刘迪源,郭武.基于区分性准则的Bottleneck特征及其在LVCSR中的应用[J].数据采集与处理,2016,31(2):331-337. 被引量：2

引证文献3

1王敏,曾浩.循环神经网络语言模型定点化优化算法研究[J].软件导刊,2017,16(2):63-66. 被引量：1
2刘加,张卫强.低资源语音识别若干关键技术研究进展[J].数据采集与处理,2017,32(2):205-220. 被引量：8
3李俊峰.基于循环神经网络和蝙蝠算法的变压器故障诊断[J].电工技术,2018(20):38-41. 被引量：4

二级引证文献13

1舒帆,屈丹,张文林,周利莉,郭武.采用长短时记忆网络的低资源语音识别方法[J].西安交通大学学报,2017,51(10):120-127. 被引量：20
2周虎,张承明,张仁堂,杨晓霞,陈岩.红枣黑变过程中主要成分连续变化模拟方法[J].科教导刊（电子版）,2018,0(15):284-285.
3叶硕,彭春堂,杜珍珍,贺娟.基于DTW的孤立词语音识别系统设计[J].长江大学学报（自然科学版）,2018,15(17):33-37. 被引量：5
4呼媛玲,寇媛媛.基于音素的英文发音自动评测系统设计[J].自动化与仪器仪表,2018,0(11):160-163.
5李山.智能家具语音识别精准度优化仿真[J].计算机仿真,2018,35(11):281-284. 被引量：4
6翁煜,冯宗伟,曹博海.人脸识别、车牌识别及智能语音分析在移动警务中的应用研究综述[J].科学与信息化,2019,0(24):37-40.
7王科,苟家萁,彭晶,刘可真,田小航,盛戈皞.基于LSTM网络的变压器油中溶解气体浓度预测[J].电子测量技术,2020,43(4):81-87. 被引量：7
8李俊卿,陈雅婷,李斯璇.机器算法在电气设备故障预警及诊断中的应用[J].科学技术与工程,2020,20(9):3370-3377. 被引量：26
9李帆,程云章,边俊杰,耿晓斌.基于PPG信号的LSTM网络同步动脉血压预测[J].软件导刊,2020,19(8):44-48. 被引量：10
10陈世超,崔春雨,张华,马戈,朱凤华,商秀芹,熊刚.制造业生产过程中多源异构数据处理方法综述[J].大数据,2020,6(5):55-81. 被引量：13

1肖景,郑秋华.一种基于Petri网的模型调度方法[J].科技通报,2011,27(2):186-189. 被引量：8
2肖敏,刘宇红.SD卡硬件加密在工业MP3中的实现[J].通信技术,2012,45(11):34-36. 被引量：1
3姚文冰,姚天任,韩涛.语音编/解码仿真中S函数的设计与应用[J].华中科技大学学报（自然科学版）,2001,29(5):83-85. 被引量：4
4张芹,江新道.基于TMS320C642的语音解码实现[J].电脑知识与技术,2014,0(7):4558-4561.
5刘涛,李明,骆瑞玲.改进的交互式多模型跟踪算法[J].计算机工程,2009,35(22):207-209. 被引量：8
6周琦.浅谈技校学生机房的维护和管理[J].职业,2006(S1):297-297. 被引量：1
7王炯琦,周海银,吴翊,赵德勇.基于模型概率的多模型融合定轨建模及仿真[J].系统仿真学报,2008,20(17):4722-4726. 被引量：4
8庞中华,金元郁.一种广义预测控制的快速算法[J].自动化技术与应用,2005,24(3):3-5. 被引量：7
9黄伟庆,刘利锋.采用MPC860实现的数字通信基带模块[J].电子技术（上海）,2005,32(5):24-26.
10尹明明,李弼程,屈丹,牛铜.连续语音解码阈值参数的优化[J].模式识别与人工智能,2012,25(1):130-135.

数据采集与处理

2016年第2期

浏览历史

内容加载中请稍等...

基于循环神经网络语言模型的N-best重打分算法被引量：3

参考文献13

二级参考文献45

共引文献5

同被引文献18

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于循环神经网络语言模型的N-best重打分算法 被引量：3

参考文献13

二级参考文献45

共引文献5

同被引文献18

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于循环神经网络语言模型的N-best重打分算法被引量：3