一种构建自适应蒙古语语音识别声学模型的方法被引量：1

A METHOD TO CONSTRUCT AN ADAPTIVE MONGOLIAN SPEECH ACOUSTIC MODEL

下载PDF

导出

摘要蒙古语语言中非词首音节短元音位置不确定产生了一词多音、构词音变、协同发音以及口语语流等现象,导致声学模型自适应性差。通过使用小规模的自适应数据集,结合MLLR和MAP建模方法,从τ值的选取和自适应声学模型建模的训练过程两方面对基本蒙古语声学模型的自适应性开展研究,给出了一种适合构建自适应蒙古语语音识别声学模型的MLLR-MAP方法。在Sphinx语音识别实验平台上进行建模实验,使用声学模型识别率与系统识别率评价指标对MAP、MLLR、MAP-MLLR和MLLR-MAP等建模方法进行评价。实验结果表明,在声学模型的总正确率、错误率和准确率三个评价指标上都得到了提升,明显优于基线模型。 In order to solve the problem of poor adaptability of acoustic model due to the multi-tone,word-changing,co-articulation and spoken language flow caused by the indefinite vowel position of non-lexical syllables in Mongolian language,this paper studied the adaptability of the basic Mongolian acoustic model by using a small-scale adaptive dataset combined with MLLR and MAP modeling methods,both from the selection of τ values and the training process of adaptive acoustic model modeling and provided a suitable MLLR-MAP method for constructing an adaptive Mongolian speech recognition acoustic model. We conducted modeling experiment on Sphinx speech recognition experiment platform and evaluated the modeling methods of MAP,MLLR,MAP-MLLR and MLLR-MAP by using acoustic model recognition rate and system recognition rate evaluation index. The experimental results showed that the Mongolian acoustic model constructed by using MLLR-MAP method had been improved on the average total accuracy rate and the average error rate,which was obviously better than the baseline model.

作者马志强李图雅闫瑞张力

机构地区内蒙古工业大学信息工程学院

出处《计算机应用与软件》北大核心 2018年第2期167-171,234,共6页 Computer Applications and Software

基金国家自然科学基金项目(61650205) 内蒙古自治区自然科学基金项目(2014MS0608) 内蒙古工业大学自然科学基金项目(ZD201118,ZS201127).

关键词 MLLRMAP 声学模型自适应性蒙古语语音识别 Maximum likelihood linear regression Maximum a posteriori Acoustic model Speaker adaptation Mongolian speech recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1柯登峰,徐波.互联网时代语音识别基本问题[J].中国科学：信息科学,2013,43(12):1578-1597. 被引量：14
2丰洪才,卢正鼎.基于MAP和MLLR的综合渐进自适应方法研究[J].计算机工程,2005,31(5):4-7. 被引量：3
3飞龙,高光来,闫学亮,王炜华.基于分割识别的蒙古语语音关键词检测方法的研究[J].计算机科学,2013,40(9):208-211. 被引量：2

二级参考文献96

1Leggetter C J. Improved Acoustic Modeling for HMMs Using Linear Transformations [Ph. D Thesis]. University of Cambridge, 1995:80.
2戴礼荣.人机语声对话特点及系统设计NCMMSC-96[Z].,1996.22-26.
3Atal B S. Automatic Recognition of Speakers from Their Voices. Proc.IEEE, 1976, 64(4): 460-475.
4Chen Hingdong, Xu Bo, Huang Taiyi. A New Speech Feature Insensitive to the Variation of Different Speakers. Chinese Journal of Electronics, 1999, 8(1): 67-72.
5Imamura A. Speaker-adaptive HMM-based Speech Recognition with A Stochastic Speaker Classifier. In Proc. IEEE Int. Conf. Acoustic,Speech, Signal Proc., 1991:841-844.
6Bao Fei-long,Gao Guang-lai.The Research on Mongolian Spo-ken Term Detection Based on Confusion Network[C]∥Procee-dings of The Chinese Conference on Pattern Recognition(CCPR2012).Beijing,2012:606-612.
7Gao Guang-lai,Biligetu,Nabuqing,et al.A Mongolian speechrecognition system based on HMM[C]∥Proceedings of International Conference on Intelligent Computing(ICIC2006).Kunming,2006:667-676.
8Qilao H S,Gao Guang-lai.Researching of Speech Recognition Oriented Mongolian Acoustic Model[C]∥Proceedings of The Chinese Conference on Pattern Recognition(CCPR2008).Beijing,2008:406-411.
9Bao Fei-long,Gao Guang-lai.Improving of Acoustic Model forthe Mongolian Speech Recognition System[C]∥Proceedings of The Chinese Conference on Pattern Recognition(CCPR2009).Nanjing,2009:616-620.
10Mangu L,Brill E,Stolcke A.Finding consensus in speech recognition:word error minimization and other applications of confusion networks[J].Computer Speech and Language,2000,14(4):373-400.

共引文献16

1倪建克,曾虹,张翔.基于最大均值似然判决规则的说话人辨认研究[J].杭州电子科技大学学报（自然科学版）,2006,26(5):96-99.
2曾定,刘加.母语与非母语语音识别声学建模[J].计算机工程,2010,36(8):170-172. 被引量：1
3杨文帅.基于麦克风阵列的多说话人语音分离方法[J].武警工程大学学报,2018,34(6):15-19.
4黄进,韩冬奇,陈毅能,田丰,王宏安,戴国忠.混合现实中的人机交互综述[J].计算机辅助设计与图形学学报,2016,28(6):869-880. 被引量：91
5常培,刘海舟.电信运营商智能语音客服平台研究与分析[J].邮电设计技术,2016(9):63-67. 被引量：1
6张海波,周民伟,刘晓辉,胡占生.语音识别技术在医院临床的探索与应用[J].中国数字医学,2017,12(10):18-20. 被引量：3
7张海波,周民伟,刘晓辉,赵晓庆.智能语音识别技术在医院临床的探索与应用[J].中国卫生信息管理杂志,2017,14(5):660-663. 被引量：25
8张文宇,刘畅.卷积神经网络算法在语音识别中的应用[J].信息技术,2018,42(10):147-152. 被引量：15
9张甫,张曙,张怡冰,周丹丹.2008-2017年语音识别技术领域竞争态势分析[J].电声技术,2018,42(7):48-57.
10马志强,李图雅,杨双涛,张力.基于深度神经网络的蒙古语声学模型建模研究[J].智能系统学报,2018,13(3):486-492. 被引量：5

同被引文献2

1王庆楠,郭武,解传栋.基于端到端技术的藏语语音识别[J].模式识别与人工智能,2017,30(4):359-364. 被引量：8
2周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1726

引证文献1

1刘晓峰,宋文爱,陈小东,郇晋侠,李志媛.基于多核卷积融合网络的BLSTM-CTC语音识别[J].计算机应用与软件,2021,38(11):167-173. 被引量：13

二级引证文献13

1张金光,孔江平.基于wav2vec2的普通话音素识别分析[J].中国语音学报,2023(2):159-166.
2华春梦,臧艳辉,马伙财.一种基于CRNN的车牌识别算法研究与应用[J].现代信息科技,2021,5(20):78-81. 被引量：5
3吴丹丹,夏秀渝.基于BLSTM-CTC的语音特征的音素识别研究[J].现代计算机,2022,28(10):32-38. 被引量：1
4陈严,李浩.基于机器学习算法的中文语音识别效果评估方法[J].信息记录材料,2022,23(8):97-99. 被引量：3
5蔡先治,王栋,鲁旭葆,苗泽宇.基于改进的Yolov5的端到端车牌识别算法[J].计算机时代,2022(12):28-33. 被引量：5
6张鹏程,吐松江·卡日,伊力哈木·亚尔买买提,刘萍,邸强,李振恩.基于YOLOv5与改进VGG-CTC的数字仪表自动读数方法[J].现代电子技术,2023,46(2):107-112. 被引量：1
7张冠萍.英语机器翻译人翻译错误自动检测系统研究[J].自动化与仪器仪表,2022(12):132-137. 被引量：1
8施峰,周坤晓.基于注意力机制的双打分式机器阅读理解模型[J].信息技术与信息化,2023(1):167-171.
9涂琼引,成南.基于语音识别的英语翻译终端设计[J].自动化与仪器仪表,2023(1):251-256.
10杨雪霁.面向多人语音识别的对话系统研究[J].自动化与仪器仪表,2023(8):286-290. 被引量：2

1金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12
2李胜博.请让我说说理想的婚姻[J].时代邮刊,2017,0(3):51-51.
3蒋勋.分数·人格·智慧[J].杂文月刊,2018,0(2):38-38.
4于重重,周兰,王鑫,吴静珠,刘倩.基于CNN神经网络的小麦不完善粒高光谱检测[J].食品科学,2017,38(24):283-287. 被引量：23
5吴潇湘.以有效铺垫提升学生英语语用能力例谈[J].现代教学,2017,0(23):61-61.
6张立亚.矿山智能视频分析与预警系统研究[J].工矿自动化,2017,43(11):16-20. 被引量：25
7张策,韦鹏程,陆晓燕,石熙.重庆方言语音识别系统的设计与实现[J].计算机测量与控制,2018,26(1):256-259. 被引量：7
8毛睿.基于小波和PCA的人脸识别系统的研究与实现[J].科技广场,2017(8):6-12. 被引量：1
9陈显龙.基于领域自适应语言模型的机器翻译[J].岭南学术研究,2017,12(3):51-56.
10贺丹.《普通话》课堂中方言音矫正的教学反思与改进[J].考试周刊,2018,0(14):6-7. 被引量：1

计算机应用与软件

2018年第2期

浏览历史

内容加载中请稍等...

一种构建自适应蒙古语语音识别声学模型的方法被引量：1

参考文献3

二级参考文献96

共引文献16

同被引文献2

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种构建自适应蒙古语语音识别声学模型的方法 被引量：1

参考文献3

二级参考文献96

共引文献16

同被引文献2

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种构建自适应蒙古语语音识别声学模型的方法被引量：1