基于HMM/SVM两级结构的汉语易混淆语音识别被引量：4

Confusable Chinese Speech Recognition Based on HMM/SVM Two-Level Architecture

导出

摘要基于 HMM 的汉语语音识别中,易混淆语音的识别率仍然不高.在分析 HMM 固有缺陷的基础上,本文提出一种使用 SVM 在 HMM 系统上进行二次识别来提高易混淆语音识别率的方法.通过引入置信度估计环节,提高系统性能和效率.通过充分利用 Viterbi 解码获得的信息来构造新的分类特征,从而解决标准 SVM 难以处理可变长数据的问题.详细探讨这种两级识别结构中置信度估计、分类特征提取和 SVM 识别器构造等问题.语音识别实验的结果显示,与采用 HMM/SVM 混合结构的模型相比,本文方法在对识别速度影响很小的情况下可以使识别率有明显提高.这表明所提出的具有置信估计环节的 HMM/SVM 两级结构用于易混淆语音识别是可行的. The recognition rate for confusable speech is still low in state-of-the-art Chinese speech recognition systems based on HMM. The inherent defects of HMM are analyzed, then a two-level-architecture recognition framework combining HMM and SVM is proposed. A confidence estimation module is adopted to improve the performance and efficiency of the system . The information obtained by Viterbi decoding is utilized to construct new classes of feature for SVM, which solves the problem that the conventional SVM cannot directly process variable length sequences. The relevant issues, such as confidence estimation, classification feature extraction and SVM recognizer construction, are addressed. The experimental results of confusable Chinese speech show that compared with the hybrid HMM/SVM based system the proposed method can highly improve the recognition rate with little impact on the running speed.

作者王欢良韩纪庆李海峰郑铁然

机构地区哈尔滨工业大学计算机学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2006年第5期578-584,共7页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.60575030) 黑龙江省留学归国基金项目(No.LC03C10) 教育部跨世纪优秀人才培养计划项目资助

关键词语音识别易混淆语音隐马尔可夫模型(HMM) 支持向量机 Speech Recognition, Confusable Speech, Hidden Markov Model （HMM）, Support Vector Machine （SVM）

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献11

1Ganapathiraju A, Hamarker J, Pieone J. Support Vector Machines for Speech Recognition// Proc of the International Conference on Spoken Language Processing. Sydney, Australia,1998:2923-2926
2Aldebaro K. Speech Recognition Using Discriminative Classifiers. Ph. D Dissertation. San Diero, USA: University of California, 2003
3Ganapathiraju A, Hamaker J E, Picone J. Applications of Support Vector Machines to Speech Recognition. IEEE Trans on Signal Processing, 2004, 52(8): 2348-2355
4Smith N, Gales M. Speech Recognition Using SVMs // Dietterich T G, Becker S, Ghahramani Z, eds. Advances in Neural Information Processing Systems 14. Cambridge, USA: MIT Press, 2002:117-129
5Shimodaira H, Noma K, Nakai M, et al. Dynamic Time-Alignment Kernel in Support Vector Machine//Dietterich T G, Becker S, Ghahramani Z, eds. Advances in Neural Information Processing Systems 14. Cambridge, USA: MIT Press, 2002,Ⅱ: 921-928
6Fine S, Saon G, Gopinath R A. Digit Recognition in Noisy Environments via a Sequential GMM/SVM System// Proe of the International Conference on Acoustics, Speech, and Signal Proeessing. Orlando, USA, 2002:2242-2246
7Salomon J, King S, Osborne M. Framewise Phone Classification Using Support Vector Machines// Proe of the International Conferenee onSpoken Laoguage Processing. Denver, USA, 2002:2645-2648
8Platt J C. Probabilities for SV Machines // Smola A J,Scholkopf B, Bartlett P L, et al, eds. Advances in Large Margin Classifiers. Cambridge, USA: MIT Press, 2000:61-74
9Hsu C W, Lin C J. A Comparison of Methods for Multi-Class Support Vector Machines. IEEE Trans on Neural Networks,2002, 13(2): 415-425
10Chang C C, Lin C J. LIBSVM: A Library for Support Vector Machines [EB/OL]. [2001-04-01] http://www.csie. ntu. edu. tw/- cjlin/libsvm

二级参考文献2

1顾良,刘润生.汉语数码语音识别:发展现状、难点分析与方法比较[J].电路与系统学报,1997,2(4):32-39. 被引量：12
2李虎生,杨明杰,刘润生.用共振峰轨迹提高汉语数码语音识别性能[J].清华大学学报（自然科学版）,1999,39(9):69-71. 被引量：2

共引文献19

1徐国庆,杨丹,王彬洁,文俊浩.乐音识别方法及应用[J].计算机应用,2005,25(4):968-970. 被引量：9
2张静亚.基于CHMM的高性能连续数字语音识别算法[J].常熟理工学院学报,2005,19(2):93-96. 被引量：4
3徐国庆,杨丹,王彬洁,文俊浩.FRED和DWT在乐音音符识别中的应用研究[J].计算机工程与应用,2005,41(18):191-193. 被引量：5
4王守觉,潘晓霞,徐春燕,陈旭,安冬,曹文明.一种基于高维空间覆盖动态搜索方法的非特定人连续数字语音识别的研究[J].电子学报,2005,33(10):1790-1793. 被引量：7
5王守觉,徐春燕,潘晓霞,安冬,陈旭,曹文明.为连续语音识别用的单词音节神经网络建模的研究[J].电子学报,2005,33(10):1883-1885. 被引量：4
6刘振安,孙捷,王晋军.小词汇量非特定人语音识别在嵌入式系统中的应用[J].计算机工程,2006,32(11):213-215. 被引量：5
7徐春辉,陆荣秀.基于16位单片机的电视机声控选台系统设计与实现[J].科技广场,2007(5):213-214.
8张培玲,王福忠,刘群坡.连续数码串语音识别系统的MATLAB实现[J].河南理工大学学报（自然科学版）,2009,28(2):211-216.
9陈吉刚.钢琴击弦机构性能评价系统研究[J].中国新技术新产品,2010(18):4-5.
10史媛媛,刘加,刘润生.基于二次多项式后验概率估计的汉语数码语音识别[J].电路与系统学报,1999,4(4):36-41.

同被引文献59

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2马立权,李维,蔡韩辉,路莹,李歆.手写数字识别中的预处理技术研究[J].仪器仪表学报,2001,22(z2):263-265. 被引量：12
3邬啸,魏延,吴瑕.改进的双隶属度模糊支持向量机[J].重庆师范大学学报（自然科学版）,2011,28(5):49-52. 被引量：5
4赖苏,熊忠阳,江帆,唐蓉君.利用改进的多项式核函数支持向量机进行文本分类[J].重庆大学学报（自然科学版）,2012,35(S1):41-45. 被引量：2
5谢湘,匡镜明.Mandarin Digits Speech Recognition Using Support Vector Machines[J].Journal of Beijing Institute of Technology,2005,14(1):9-12. 被引量：2
6张丽霞,施国庆.基于支持向量机的工程项目风险预测研究[J].计算机工程与应用,2005,41(21):224-226. 被引量：10
7应伟,王正欧,安金龙.一种基于改进的支持向量机的多类文本分类方法[J].计算机工程,2006,32(16):74-76. 被引量：28
8孙喜斌.儿童人工耳蜗植入后的听觉言语康复[J].中国听力语言康复科学杂志,2006,35(5):74-77. 被引量：4
9石现峰,张学智,张峰.基于HTK的语音识别系统设计[J].计算机技术与发展,2006,16(10):37-38. 被引量：23
10曾水玲,徐蔚鸿.基于支持向量机的手写体数字识别[J].计算机与数字工程,2006,34(10):104-106. 被引量：9

引证文献4

1陈晗,戴在平.家电控制系统的语音关键词识别算法研究[J].电声技术,2008,32(4):48-51.
2张志平,汪庆淼.基于混合分类器的表情识别方法[J].计算机工程,2010,36(23):139-141. 被引量：2
3汪海燕,黎建辉,杨风雷.支持向量机理论及算法研究综述[J].计算机应用研究,2014,31(5):1281-1286. 被引量：195
4钟一鸣,张国军,诸瑶.人工耳蜗植入儿童易混淆语音发音状况研究[J].中国听力语言康复科学杂志,2020,18(3):198-202.

二级引证文献197

1李曙光,张新泉.沙钢冷轧原料库行车无人化技术应用[J].冶金自动化,2021,45(S01):12-15. 被引量：1
2王增政,王岩松,郭辉,袁涛,郑立辉,孙裴.基于LS-SVR的高速列车车内声品质主观评价[J].智能计算机与应用,2022,12(2):191-195.
3黄炜,张伟,夏利民.基于高阶奇异值分解的驾驶疲劳识别[J].计算机工程,2011,37(15):143-145. 被引量：1
4支余庆.利用串联谐振耐压现场检出和处理GIS缺陷[J].高电压技术,2000,26(2):78-79. 被引量：4
5牟宗萍,郑波,孙宗花,郭富荣,郭安余.新生儿惊厥的临床特点及病因分析(附124例报告)[J].新生儿科杂志,2000,15(1):32-33. 被引量：15
6黄振翔,彭波,吴娟,王儒朋.基于DTW与混合判别特征检测器的手势识别[J].计算机工程,2014,40(5):216-218. 被引量：7
7李远远,梅红波,任晓杰,胡旭东,李梦迪.基于确定性系数和支持向量机的地质灾害易发性评价[J].地球信息科学学报,2018,20(12):1699-1709. 被引量：51
8熊静玲,朱西存,高华光,于瑞阳,温新.基于MSC与SVM的夯土齐长城土壤含水率高光谱估测[J].土壤学报,2018,55(6):1336-1344. 被引量：6
9马云飞.基于建模仿真的战车分类算法研究[J].电子技术（上海）,2014(8):9-14. 被引量：1
10卢曼丽.基于K-means算法的神经网络文本分类算法研究[J].中国管理信息化,2014,17(21):80-82. 被引量：1

1林晓帆,丁晓青,吴佑寿.最近邻分类器置信度估计的理论分析[J].科学通报,1998,43(3):322-325. 被引量：10
2朱善安,黎云汉.改进Hough变换在虹膜定位中的应用研究[J].沈阳建筑大学学报（自然科学版）,2007,23(5):877-880. 被引量：1
3王博,罗超.基于改进的BP神经网络的入侵检测研究[J].井冈山大学学报（自然科学版）,2011,32(4):66-70. 被引量：4
4周贤娟,赵发,冷强,杨欢.具有语音识别功能的无线传感器网络节点设计[J].单片机与嵌入式系统应用,2014,14(7):57-59.
5林国英,陈江新.面向课堂教学多媒体数据库管理系统的应用——VFP的可变长数据类G的使用[J].广西商业高等专科学校学报,2000,17(4):73-73.
6高兴龙,潘接林,颜永红.基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度[J].电子与信息学报,2014,36(8):1852-1858. 被引量：1
7Mellanox创新网络支撑科大讯飞走向前台[J].中国信息化,2016,0(12):94-94.
8姚兵.君子动口不动手——声龙语音识别系统使用手记[J].微电脑世界,2000(29):50-50.
9李明爱,焦利芳,郝冬梅,乔俊飞.基于多个并行CMAC神经网络的强化学习方法[J].系统仿真学报,2008,20(24):6683-6685. 被引量：2
10张戈,严欢,殷景华.基于HTK调用MatLab的语音识别的研究[J].现代计算机,2010,16(9):31-33. 被引量：2

模式识别与人工智能

2006年第5期

浏览历史

内容加载中请稍等...

基于HMM/SVM两级结构的汉语易混淆语音识别被引量：4

参考文献11

二级参考文献2

共引文献19

同被引文献59

引证文献4

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

基于HMM/SVM两级结构的汉语易混淆语音识别 被引量：4

参考文献11

二级参考文献2

共引文献19

同被引文献59

引证文献4

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

基于HMM/SVM两级结构的汉语易混淆语音识别被引量：4