汉语连续语音识别系统中三音子模型的优化被引量：4

Refining triphone model in mandarin continuous speech recognition

下载PDF

导出

摘要为了更准确地估计状态聚类前有调三音子的模型参数,从而提高聚类后捆绑状态的精度及系统的识别性能,针对汉语连续语音识别中,有些有调三音子的训练样本数非常少,而其对应的无调三音子的训练样本数相对较多的情况,提出用其对应的无调三音子的模型参数进行初始化,并用最大后验概率准则训练模型。汉语大词汇量连续语音识别实验表明,该方法可以提高训练语料中稀疏三音子聚类前的模型精度,从而提高系统的识别性能。 In order to estimate toned triphone＇ s model parameters accurately before state clustering and increase recognition rate, this paper used the corresponding toneless triphone model parameters for the initialization of toned triphones, and applied the maximum a posteriori criterion for model estimation. In the experiment of mandarin large vocabulary continuous speech recognition, this method can improve the accuracy of sparse triphone＇ s model in the training corpus before clustering and a- chieve certain increase of recognition rate.

作者齐耀辉潘复平葛凤培颜永红

机构地区北京理工大学信息与电子学院中国科学院声学研究所中国科学院语言声学与内容理解重点实验室河北师范大学物理科学与信息工程学院中国科学院声学研究所中国科学院语言声学与内容理解重点实验室

出处《计算机应用研究》 CSCD 北大核心 2013年第10期2920-2922,共3页 Application Research of Computers

基金国家自然科学基金资助项目(10925419,90920302,61072124,1107427511161140319,91120001,61271426) 中国科学院战略性先导科技专项资助项目(XDA06030100,XDA06030500) 国家“863”计划资助项目(2012AA012503) 中国科学院重点部署项目(KGZD-EW-103-2)

关键词决策树聚类三音子模型声韵母最大后验概率 decision tree-based clustering triphone model initials and finals maximum a posteriori（MAP）

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献12

1倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123. 被引量：39
2黄浩,朱杰,哈力旦.汉语语音识别中的区分性声调建模方法[J].计算机工程与应用,2009,45(11):178-182. 被引量：4
3YAN Long,ZHAO Ren-cai,LIU Gang,et al. Large vocabulary manda-rin Chinese continuous speech recognition system based on tonaltriphone [ C] //Proc of International Symposium on Tonal Aspects ofLanguages. 2004:28 - 31.
4李净,郑方,张继勇,吴文虎.汉语连续语音识别中上下文相关的声韵母建模[J].清华大学学报（自然科学版）,2004,44(1):61-64. 被引量：18
5YOUNG S J, WOODLAND P C. State clustering in hidden Markovmodel-based continuous speech recognition [ J]. Computer Speechand Language, 1994,8(4) :369-384.
6WANG Guang-sen, SIM K C. An investigation of tied-mixture GMMbased triphones state clustering [ C] //Proc of IEEE International Con-ference on Acoustics,Speech and Signal Processing.2012 -.4717-4720.
7韩兆兵,贾磊,张树武,徐波.连续语音识别中声学建模的组合聚类算法研究[J].中文信息学报,2003,17(4):33-38. 被引量：5
8REICHL W,CHOU W. Robust decision tree state tying for continuousspeech recognition [ J]. IEEE Trans on Speech and Audio Pro-cessing,2000,8(5) ;555-566.
9LIU Chao-jun,WU Xin-tian,YAN Yong-hong. High accuracy acousticmodeling using two-level decision-tree based state-tying[ C] //Proc ofthe 5 th European Conference on Speech Communication and Techno-logy. 1999:1703-1706.
10WONG Y W,CHANG E. The effect of pitch and lexical tone on diffe-rent mandarin speech recognition tasks[ C]//Proc of the 7th EuropeanConference on Speech Communication and Technology. 2001:2741-2744.

二级参考文献110

1钱跃良,林守勋,刘群,刘宏.2005年度863计划中文信息处理与智能人机接口技术评测回顾[J].中文信息学报,2006,20(B03):1-6. 被引量：4
2张昊天.[D].北京:清华大学电子工程系,2000.
3Zhang, B., S. Matsoukas and R. Schwartz. Discrimina tively trained region dependent teature transforms for speech recognition [C]// Proc. ICASSP, Vol. 1-13, 2006: 313-316.
4Beyerlein, P., et al., Large vocabulary continuous speech recognition of Broadcast News - The Philips/ RWTH approach[J]. Speech Communication, 2002, 37(1-2): 109- 131.
5Hain, T., et al., Automatic transcription of conversational telephone speech [C]// IEEE Transactions on Speech and Audio Processing, 2005, 13(6): 1173-1185.
6Zhang, B. and S. Matsoukas, Minimum phoneme error based heteroscedastic linear discriminant analy sis for speech recognition[C]// Proc. ICASSP, Vol. 1-5, 2005: 1925-1928.
7Hirsimaki, T., et al., Unlimited vocabulary speech recognition with morph language models applied to Finnish[J]. Computer Speech and Language, 2006, 20(4) : 515-541.
8Odell, J.J., The Use of Context in Large Vocabulary Speech Recognition[D]. 1995, University of Cambridge :Cambridge
9Young, S.J., J.J. Odell, and P. C. Woodland. Tree-Based State Tying for High Accuracy Modelling [C]// Proceedings ARPA Workshop on Human Language Technology. 1994.
10Xu, B., et al., Integrating tone information in continuous Mandarin recognition[C]// Proc. ISSPIS, 1999.

共引文献83

1贾珈,蔡莲红,李明,张帅.汉语普通话与沈阳方言转换的研究[J].清华大学学报（自然科学版）,2009(S1):1309-1315. 被引量：7
2杨吉斌,邢艳玲,曹铁勇,张雄伟.基于Mellin变换和Mel频率分析的非特定人语音识别特征研究[J].模式识别与人工智能,2005,18(3):350-353. 被引量：2
3李财莲,赵小阳,王丽娟,岳振军.说话人识别中关键技术的现状与发展[J].军事通信技术,2005,26(2):62-65. 被引量：3
4蔡铁,朱杰.基于支持说话人权重的快速说话人自适应算法[J].上海交通大学学报,2005,39(12):1997-2001.
5徐向华,朱杰,郭强.决策树结构对说话人自适应影响的研究[J].声学学报,2006,31(1):42-47. 被引量：3
6李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
7黄盈椿,王欢良,冯涛.应用MAP方差估计的话者自适应训练方法[J].计算机工程,2006,32(20):203-204.
8张辉,杜利民.汉语连续语音识别中不同基元声学模型的复合[J].电子与信息学报,2006,28(11):2045-2049. 被引量：7
9倪建克,曾虹,张翔.基于最大均值似然判决规则的说话人辨认研究[J].杭州电子科技大学学报（自然科学版）,2006,26(5):96-99.
10潘玉春,徐明星,贾培发.面向情感语音识别的建模方法研究[J].计算机科学,2007,34(1):163-165. 被引量：1

同被引文献64

1丁沛,曹志刚.基于语音增强失真补偿的抗噪声语音识别技术[J].中文信息学报,2004,18(5):64-69. 被引量：3
2徐向华,朱杰,郭强.汉语连续语音识别中的分级聚类算法的研究和应用[J].信号处理,2004,20(5):497-500. 被引量：2
3韩勇,须德,戴国忠.语音用户界面研究进展[J].计算机科学,2004,31(6):1-4. 被引量：5
4刘放军,王仁华.语音识别前端鲁棒性问题综述[J].计算机科学,2006,33(4):168-173. 被引量：3
5张翠丽,张申生,李磊.基于统一受理的农业呼叫中心解决方案[J].计算机应用与软件,2006,23(10):31-32. 被引量：9
6赵春江,申长军,邢振,郑文刚,鲍锋,吴文彪.农产品信息采集器及采集方法[P].中国:CNl02122430A,2011.
7Singh G. Multi utility e-controlled cum voice operated farm.International Journal of Computer Applications, 2010, 1(13): 109-113.
8Mantena G V, Rajendran S, Rambabu B, Gangashetty S V, Yegnanarayana B, Prahallad K. A speech-based conversation system for accessing agriculture commodity prices in Indian languages. Hands-free Speech Communication and Microphone Arrays (HSCMA) 2011 Joint Workshop on, 2011: 153-154.
9Plauche M, Nallasamy U, Pal J, Wooters C, Ramachandran D. Speech recognition for illiterate access to information and technology. //Proceedings of the First International Conference on Information and Communication Technologies and Development (ICTD '06). Berkeley, CA, 2006: 83-92.
10Ou W H, Gao W L, Li Z, Zhang S L, Wang Q. Application of keywords speech recognition in agricultural voice information system. //Computational Intelligence and Natural Computing Proceedings ( CINC), 2010 Second International Conference. Wuhan, Hubei, 2010: 197-200.

引证文献4

1许金普,诸叶平.基于语音识别的农产品价格信息采集方法[J].中国农业科学,2015,48(3):449-459. 被引量：8
2许金普.基于MMSE谱减算法的农产品市场信息语音识别技术[J].河南农业科学,2015,44(5):156-160. 被引量：2
3许金普,许丰娟,诸叶平,刘升平,岳慧丽,刘丹.农产品市场信息采集的语音识别鲁棒性方法[J].中国农业科技导报,2015,17(4):100-106.
4丁磊,蒋东国,王志韬.语音识别技术在电子货架标签系统中的应用[J].计算机测量与控制,2016,24(10):186-189. 被引量：1

二级引证文献11

1许金普,许丰娟,诸叶平,刘升平,岳慧丽,刘丹.农产品市场信息采集的语音识别鲁棒性方法[J].中国农业科技导报,2015,17(4):100-106.
2林麒麟,包广清,宋旭辉,张宝强,陶佳.基于语音识别的电梯辅助控制系统设计[J].计算机与数字工程,2017,45(3):544-548. 被引量：11
3张世红.海量网页挂码信息自动采集方法仿真[J].计算机仿真,2017,34(4):280-283. 被引量：2
4钱婷婷,赵京音,杨娟,邵芳,王美凤,陈旭,郑秀国.农产品价格监测体系建设及监测预警方法进展[J].上海农业学报,2017,33(4):146-151. 被引量：12
5赵玉芹.基于三维视觉的地铁客流信息智能采集算法研究[J].微电子学与计算机,2017,34(10):101-104. 被引量：2
6戚龙,赵丹.基于BP神经网络的非特定人语音识别算法[J].科学技术与工程,2017,17(31):277-282. 被引量：13
7阳琼芳.基于Android可语音识别的茶树种质资源APP设计与实现[J].福建电脑,2018,34(2):14-16.
8胡宏梅,姜子祥.基于无线射频识别技术的超市快速结算系统的设计与实现[J].计算机测量与控制,2018,26(5):116-119. 被引量：4
9张敏.基于神经网络的建筑施工质量评价[J].现代电子技术,2018,41(17):173-177. 被引量：10
10刘慧,杨玉清,鲁梦瑶,李军会,赵龙莲.农产品市场环境下语音端点检测的研究[J].自动化技术与应用,2019,38(5):129-134. 被引量：1

1徐向华,朱杰,郭强.汉语连续语音识别中的分级聚类算法的研究和应用[J].信号处理,2004,20(5):497-500. 被引量：2
2赵力.基于偶数帧段输入隐马尔可夫模型的噪声环境下汉语连续语音识别研究[J].声学学报,2002,27(1):59-61. 被引量：1
3吴华,徐波,黄泰翼.基于三音子模型的语料自动选择算法[J].软件学报,2000,11(2):271-276. 被引量：12
4徐英进,贾珈,蔡莲红.汉语语音合成中说话人自适应的时长优化[J].清华大学学报（自然科学版）,2013,53(11):1597-1600. 被引量：1
5董明,刘润生.基于先验知识的三音子模型聚类结构自适应策略[J].电子与信息学报,2007,29(9):2050-2053.
6郝杰,李星.基于经典隐马尔可夫模型的汉语连续语音识别系统[J].电子与信息学报,2002,24(7):944-947. 被引量：3
7魏瑞莹,梁维谦.基于三音子模型连续语音声调识别方法[J].电声技术,2011,35(8):34-37. 被引量：1
8徐向华,朱杰,郭强.一种基于模糊聚类分析的异音混合共享模型[J].声学学报,2005,30(5):457-461.
9卢恒,凌震华,雷鸣,戴礼荣,王仁华.基于最小生成误差的HMM模型聚类自动优化[J].模式识别与人工智能,2010,23(6):822-828. 被引量：1
10高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,25(6):504-509. 被引量：20

计算机应用研究

2013年第10期

浏览历史

内容加载中请稍等...

汉语连续语音识别系统中三音子模型的优化被引量：4

参考文献12

二级参考文献110

共引文献83

同被引文献64

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

汉语连续语音识别系统中三音子模型的优化 被引量：4

参考文献12

二级参考文献110

共引文献83

同被引文献64

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

汉语连续语音识别系统中三音子模型的优化被引量：4