基于模型融合的母语与非母语语音识别被引量：3

Native and non-native speech recognition based on acoustic model merging

下载PDF

导出

摘要母语与非母语英语发音方式通常存在固有的差别,这导致基于母语发音训练的语音识别模型不能适应非母语说话人。一种有效的方法是建立模型的补偿机制,来容忍母语与非母语说话人之间的发音变化。分析了中国人受母语的影响带来的英语发音变化,针对音素变化和声音变化,分别采用多发音字典和模型融合技术,实现了中国人说英语的语音识别率提高了15%,但母语英语的语音识别率下降不到1%。 The inherent differences between native and non-native language pronunciation can lead to non-native language rate of decline using the model trained with native language speech. The confusions between Native and non-Native speaker lead the rate of decline. , which need to create a new model to tolerance this change. Set up on baseline Native English recogntion system, the character of Chinese people speaking English is firstly analyzed in this paper. We propose to analyze and model the phonetic and acoustic confusuons separately, using pronunciation dictionary and acoustic model merging technology to create a new model, with a significant 15% absolute WER reduction on the Chinese English, which only sacrifics 1% recognition rate on the native English.

作者曾定刘加

机构地区清华大学电子工程系清华信息科学与技术国家实验室(筹)

出处《电子测量技术》 2009年第6期81-83,115,共4页 Electronic Measurement Technology

基金国家自然科学基金委员会与微软亚洲研究院联合资助项目60776800 国家高技术研究发展计划(863计划):项目2006AA010101 项目2007AA04Z223 项目2008AA02Z414

关键词语音识别非母语模型融合多发音字典 speech recognition non-native model merging pronunciation dictionary

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1姚竞.嵌入式英语命令词语音识别算法研究与实现[D].北京:清华大学电子工程系,2007:1-56.
2常丹华,郑春蕾.基于DSP的语音识别智能控制系统[J].电子测量技术,2008,31(4):175-178. 被引量：7
3OH Y R, YOON J S, KIM H K. Acoustic model adaptation based on pronunciation variability analysis for non-native speech recognition [J]. Speech Communication, 2007,49 : 59-70.
4BOUSELMI G, FOHR D, ILLINA I, et al. Fully Automated Non-Native Speech Recognition Using Confusion-Based Acoustic Model Integration[C]. 9th European Conference on Speech Communication and Technology, Lisbon, 2005 :345-348.
5TAN T P, BESACIER L, Acoustic Model Interpolation for non-native speech recognition[C]. ICASSP'07, Honolulu, 2007:1009-1012.
6DECKER A M, LAMEL L. Pronunciation variants across system configuration, language and speaking style[J]. Speech Communication, 1999 29 : 83-98.
7刘明宽,徐波,黄泰翼,胡伟湘.音节混淆字典及在汉语口音自适应中的应用研究[J].声学学报,2002,27(1):53-58. 被引量：3

二级参考文献7

1郭锦桴.综合语音学[M].福建:福建人民出版社,1992..
2何英何强.MATLAB扩展编程[M].北京：清华大学出版社,2002..
3蔡连红黄德智蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003,11..
4TI. TMS320C3X General-Purpose Applications User's Guide[Z]. Texas Instruments, 2001 : 1-107.
5TI. CPU & Memory Reqs for Real-Time Speech Recognition Systems Using TMS320C3x_C4x[Z]. 2001: 7.
6陈景东,姚磊,黄泰翼.几种高鲁棒性通道及说话人自适应语音识别算法研究[J].声学学报,1998,23(6):537-544. 被引量：9
7高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,25(6):504-509. 被引量：20

共引文献8

1宋弘.小波神经网络在语音识别系统中的应用[J].微电子学与计算机,2010,27(4):122-124. 被引量：3
2尹泉,康慨,王庆义,王傲能.基于AD7612的高精度电压检测技术及实现[J].电子测量技术,2010,33(12):43-46. 被引量：6
3杨雅婷,马博,王磊,吐尔洪.吾司曼,李晓.多发音字典在维吾尔语方言语音识别中的应用[J].清华大学学报（自然科学版）,2011,51(9):1303-1306. 被引量：5
4王琼,白武博,夏光.基于非特定人车载电器语音控制系统的研究与实现[J].合肥工业大学学报（自然科学版）,2012,35(5):590-594. 被引量：3
5翟片富,景新幸.基于DSP的语音识别系统研究[J].大众科技,2013,15(12):16-18.
6戴成梅,徐朝辉,门玉森.智能小车运行状态控制系统设计[J].周口师范学院学报,2014,31(2):56-60. 被引量：1
7于镭,林再腾.基于香橙派的智能语音识别系统的设计[J].电子测量技术,2019,42(19):36-40. 被引量：6
8丁鹏,徐波.综合非语境因素的语音数据分类与声学建模研究[J].声学学报,2004,29(1):23-28.

同被引文献20

1余皓,苏全.语音控制机器人的设计与实现[J].电气自动化,2007,29(5):29-31. 被引量：7
2Beer J M, Smarr C A, Chen T L, et al. Ttle domesticated robot : design guidelines for assisting older adults to age inplace. In: Proceedings of HRI 12 Proceedings of the Sev- enth Annual ACM/IEEE International Conference on Hu- man-Robot Interaction, 2012. 335-342.
3Kinsella K, Phillips D R. Global aging: the challenge of success. Population Bulletin, 2005, 60( 1 ): 5-39.
4Krishnan R H, Pugazhenthi S. Mobility assistive devices and self-transfer robotic systems for elderly: a review. In- telligent Service Robotics, 2014, 7 ( 1 ) : 37-49.
5Moscovich, Luis G. Learning discrete hidden Markov models from state distribution vectors, selected topics in Louisana State Universitay and Agricultural&Mechanical College, 2005,32 -45.
6胡钢.汉语孤立词语音识别算法分析与研究.[硕士学位论文].辽宁:鞍山科技大学,2003.16-59.
7DaIliel JurafSky & James H. Martin. Speech and lan- guage processing:an introduction to natural language pro- cessing. Computational Linguistics, and SpeechRecogni- tion (2ed). Prentice-Hall, 2006. 38-42.
8HUANG Hao ZHU Jie.Discriminative tonal feature extraction method in mandarin speech recognition[J].The Journal of China Universities of Posts and Telecommunications,2007,14(4):126-130. 被引量：1
9陈玉平,韩纪庆,郑铁然.基于动态排位信息的语音关键词确认方法[J].计算机工程,2008,34(10):161-162. 被引量：6
10张震,王化清.语音识别中DTW模型的改进算法研究[J].矿山机械,2008,36(22):30-34. 被引量：1

引证文献3

1高美娟,杨智鑫,田景文.移动机器人实时语音控制的实现[J].电子测量技术,2011,34(7):50-53. 被引量：12
2毛丽民,卢振利,谢新明,浦宇欢.基于语音交互功能的医疗服务机器人控制系统设计[J].高技术通讯,2014,24(7):745-751. 被引量：6
3高圆.自动检测座椅功能机器人的设计与实施[J].今日自动化,2021(3):49-52.

二级引证文献18

1黎林,朱军.基于小波分析与神经网络的语音端点检测研究[J].电子测量与仪器学报,2013,27(6):528-534. 被引量：26
2李翔,李昕,胡晨,卢夏衍.面向智能机器人的Teager语音情感交互系统设计与实现[J].仪器仪表学报,2013,34(8):1826-1833. 被引量：10
3朱坚民,张雷,翟东婷,雷静桃.基于声音多特征贝叶斯网络融合的话者识别研究[J].仪器仪表学报,2013,34(9):2058-2067. 被引量：14
4毛丽民,卢振利,谢新明,浦宇欢.基于语音交互功能的医疗服务机器人控制系统设计[J].高技术通讯,2014,24(7):745-751. 被引量：6
5张宇波,邢立钊.基于小波分析与PSO-ELM的语音端点检测算法研究[J].中北大学学报（自然科学版）,2016,37(1):33-38. 被引量：4
6卢振利,田铠,徐惠钢,张程,李斌,波罗瓦茨·布朗尼斯拉夫,刘军.面向人机对抗赛的语音交互系统设计[J].高技术通讯,2017,27(5):457-463. 被引量：4
7王俊力,冯锡炜,孟菲.石油石化设备巡检小车语音识别与控制系统设计与实现[J].电子设计工程,2017,25(22):74-77. 被引量：4
8张梁,张方,蒋祺,朱伟.基于模糊控制的轮式机器人振动主动控制[J].国外电子测量技术,2017,36(11):129-133. 被引量：8
9刘家春,刘利,刘鑫,孙凯旋,史颖刚,傅隆生.基于竞赛的医疗服务机器人控制系统设计[J].山东理工大学学报（自然科学版）,2018,32(2):6-11. 被引量：4
10禹鑫燚,朱峰,柏继华,欧林林.基于Win-ROS的公共服务机器人人机交互系统设计[J].高技术通讯,2018,28(11):954-963. 被引量：13

1朱小燕,王昱,徐伟.基于循环神经网络的语音识别模型[J].计算机学报,2001,24(2):213-218. 被引量：23
2杨雅婷,马博,王磊,吐尔洪.吾司曼,李晓.多发音字典在维吾尔语方言语音识别中的应用[J].清华大学学报（自然科学版）,2011,51(9):1303-1306. 被引量：5
3荣蓉.一类基于概率神经网络的语音识别模型[J].山东理工大学学报（自然科学版）,2005,19(3):49-52.
4姜姝姝.语音识别64年大突破[J].机器人产业,2016(6):108-113.
5梁浩,杨光宇.基于连续隐马尔科夫的语音识别模型[J].无线互联科技,2013,10(6):56-57. 被引量：1
6李冠宇.基于HTK的藏语拉萨话大词表连续语音识别的研究与实现[J].西北民族大学学报（自然科学版）,2011,32(3):19-23. 被引量：3
7曾姝.浅析日语方位词“下”的用法[J].科技视界,2014(21):154-154.
8石佳影,黄威.基于深度神经网络的四川方言识别[J].现代计算机,2016,22(9):3-6. 被引量：4
9史丽娟,赵剑,王丽荣,杜钦生,安志勇,车娜.基于舌部可视化模型的听障儿童发音训练[J].光学精密工程,2015,23(2):582-588. 被引量：2
10王庆楠,郭武,解传栋.基于端到端技术的藏语语音识别[J].模式识别与人工智能,2017,30(4):359-364. 被引量：8

电子测量技术

2009年第6期

浏览历史

内容加载中请稍等...

基于模型融合的母语与非母语语音识别被引量：3

参考文献7

二级参考文献7

共引文献8

同被引文献20

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于模型融合的母语与非母语语音识别 被引量：3

参考文献7

二级参考文献7

共引文献8

同被引文献20

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于模型融合的母语与非母语语音识别被引量：3