连续语音识别中声学建模的组合聚类算法研究被引量：5

A Combined Clustering Algorithm of Acoustic Modelling for Continuous Speech Recognition

下载PDF

导出

摘要基于三音子连续语音识别的一个关键问题是在有限训练数据的条件下对大量声学模型参数的鲁棒性估计。为了解决这个问题 ,有两个主要的上下文相关的聚类算法被提出 ,它们是合并 (AgglomerativeClustering)聚类 (AGG)和决策树 (Tree based)聚类 (TB)。本文分析了这两种算法的优缺点 ,并分别对其进行了改进 ,然后提出了最大似然框架下组合聚类算法。大词汇量连续语音识别 (LVCSR)的实验结果表明 ,和单一的决策树聚类算法比较 ,提出的组合聚类算法对识别率有显著的提高。 A crucial issue in triphone-based continuous speech recognition is the large number of parameters to be estimated against the limited availability of training data. To cope with the problem, two major context-clustering methods, agglomerative (AGG) and tree-based (TB), have been widely investigated. We analyze both algorithms with respect to their advantage and disadvantage, develop several methods to improve on them, and introduce a novel combined method in the maximum likelihood framework. For LVCSR, the experimental results show the performance can be much improved by using the proposed combined method, compared with those of the existing TB method alone.

作者韩兆兵贾磊张树武徐波

机构地区中国科学院自动化研究所模式识别国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2003年第4期33-38,共6页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目 (6 9835 0 0 3) 973资助项目 (G19980 30 0 5 0 4 )

关键词连续语音识别声学建模组合聚类算法合并聚类决策树聚类鲁棒性估计 computer application Chinese information processing speech recognition agglomerative clustering decision tree-based clustering acoustic modeling

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献12

1S.J. Young, P.C. Woodland, State Clustering in Hidden Markov Model-based Continuous Speech Recognition[ J ], Computer, Speech and Language, Oct 1994, 8 (4) : 369 - 384.
2P.C. Woodland, J.J. Odell, V. Valtchev, S.J. Young, Large vocabulary CSR using HTK [ C],ICASSP'94,125 - 128.
3M. Y. Hwang, X.D. Huang, and F. Alleva, Predicting unseen triphones with senones[C], ICASSP'93,311 - 314.
4S.J. Young, J.J. Odell, P.C. Woodland, Tree-Based State Tying for High Accuracy Acoustic Modelling[C], In Proc. Human Language Technology Workshop, March 1994,307- 312.
5Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon. Spoken Language Processing: A Guide to Theory,Algorithm, and System Development[M], Prentice Hall PTR, 2001.
6J. M. Huerta and R. M. Stem, Distortion-Class Modeling for Robust Speech Recognition under GSM RPE-LTP Coding[J ], in Speech Communication, 2001,34( 1 - 2) :213 - 225.
7V. Digalakis, P. Monaco and H. Murveit, Genones: generalized mixture tying in continuous hidden markovmodel-based speech recognizers [J ], IEEE Transactions on Speech and Audio Processing, July 1996,4, (4) :281 - 289.
8W. Reichl and W. Chou, Robust Decision Tree State Tying for Continuous Speech Recngnition[J], IEEE Trans. Speech and Audio Proc. , 2000,8(5) :555 - 566.
9J. Park H. Ko, CONSTRUCTION OF DECISION TREE FROM DATA DRIVEN CLUSTERING[ C], ICSLP 2002,2657 - 2660.
10J. T Chien, C. H Huang, and S. J Chen, COMPACT DECISION TREES WITH CLUSTER VALIDITY FOR SPEECH RECOGNITION[C], ICCASP 2002,2462 - 2465.

同被引文献57

1李健,王作英.HMM转移概率的新的重估算法[J].电子学报,2001,29(z1):1833-1835. 被引量：5
2林贤明,李堂秋,史晓东.基于模板的机器翻译系统中模板库的自动构建技术[J].计算机应用,2004,24(9):127-128. 被引量：4
3于胜民,张树武,徐波.汉英双语混合声学建模方法研究[J].中文信息学报,2004,18(5):78-84. 被引量：4
4秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
5梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
6刘德荣 ,王永成 ,刘传汉 .基于主题概念的多文档自动摘要研究[J].情报学报,2005,24(1):69-74. 被引量：7
7张春祥,赵铁军,杨沐昀,李生,时晓升.机器翻译系统跨领域移植方法的研究[J].计算机工程与应用,2005,41(3):10-11. 被引量：1
8李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30. 被引量：33
9王建波,杜春玲,王开铸.基于篇章理解的自动文摘研究[J].中文信息学报,1995,9(3):33-42. 被引量：12
10王智勇,王正欧.一种统计降维和Kohonen网络相结合的文本聚类方法[J].计算机应用,2005,25(10):2328-2330. 被引量：3

引证文献5

1李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
2齐耀辉,潘复平,葛凤培,颜永红.汉语连续语音识别系统中三音子模型的优化[J].计算机应用研究,2013,30(10):2920-2922. 被引量：4
3邹灿,李柏岩.基于BIC的语音识别模型压缩算法[J].计算机与现代化,2014(6):71-73.
4刘豫军,夏聪.连续语音识别技术及其应用前景分析[J].网络安全技术与应用,2014(8):15-16. 被引量：4
5陈拥权,李建中,郑荣稳,鲁加旺.连续语音识别技术及其应用前景分析[J].数码世界,2016,0(1):29-31.

二级引证文献9

1宗中.中文信息检索中词典机制分词算法的研究[J].计算机技术与发展,2014,24(4):118-121. 被引量：6
2许金普,诸叶平.基于语音识别的农产品价格信息采集方法[J].中国农业科学,2015,48(3):449-459. 被引量：8
3许金普.基于MMSE谱减算法的农产品市场信息语音识别技术[J].河南农业科学,2015,44(5):156-160. 被引量：2
4许金普,许丰娟,诸叶平,刘升平,岳慧丽,刘丹.农产品市场信息采集的语音识别鲁棒性方法[J].中国农业科技导报,2015,17(4):100-106.
5刘润东.云计算平台下的语音信号处理[J].现代电子技术,2016,39(2):15-17. 被引量：1
6丁磊,蒋东国,王志韬.语音识别技术在电子货架标签系统中的应用[J].计算机测量与控制,2016,24(10):186-189. 被引量：1
7惠益龙,张太红,吕莲花,王蓓蓓.语音识别中的统计语言模型研究[J].信息技术,2017,41(1):44-46. 被引量：2
8赵宇环.云计算平台下的语音信号处理探析[J].山西科技,2017,32(6):74-75.
9翟永杰,杨旭,彭雅妮,王新颖.基于计算机听觉技术的电力设备状态监测研究综述[J].广东电力,2019,32(9):24-32. 被引量：16

1卢恒,凌震华,雷鸣,戴礼荣,王仁华.基于最小生成误差的HMM模型聚类自动优化[J].模式识别与人工智能,2010,23(6):822-828. 被引量：1
2赵泰洋,郭成安,金明录.一种基于RFID原理的交通信息获取系统与车辆定位方法[J].电子与信息学报,2010,32(11):2612-2617. 被引量：42
3王布宏,王永良,陈辉,陈旭.均匀线阵互耦条件下的鲁棒DOA估计及互耦自校正[J].中国科学（E辑）,2004,34(2):229-240. 被引量：29
4杨爱英,吴翔宇,孙雨南.Robustness estimation of software-synchronized all-optical sampling for fiber communication systems[J].Chinese Optics Letters,2009,7(3):194-197. 被引量：2
5蒋泽,杜惠平,阮颖铮.用菲涅尔区板天线实现来波方向的鲁棒性估计[J].红外与毫米波学报,2004,23(5):374-376.
6齐耀辉,潘复平,葛凤培,颜永红.汉语连续语音识别系统中三音子模型的优化[J].计算机应用研究,2013,30(10):2920-2922. 被引量：4
7徐英进,贾珈,蔡莲红.汉语语音合成中说话人自适应的时长优化[J].清华大学学报（自然科学版）,2013,53(11):1597-1600. 被引量：1
8周智恒,谢胜利.基于自适应鲁棒性光流的差错掩盖[J].电子与信息学报,2006,28(10):1888-1891. 被引量：1
9戴胜波,雷武虎,程艺喆,曾礼,王迪.SVC和SOFM组合聚类的雷达信号预分选方法[J].火力与指挥控制,2015,40(3):96-99.
10徐英进,王永鑫,蔡莲红.汉语语音合成中基于语境特征的清浊音时长调整[J].中国科技论文,2012,7(10):783-786.

中文信息学报

2003年第4期

浏览历史

内容加载中请稍等...

连续语音识别中声学建模的组合聚类算法研究被引量：5

参考文献12

同被引文献57

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

连续语音识别中声学建模的组合聚类算法研究 被引量：5

参考文献12

同被引文献57

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

连续语音识别中声学建模的组合聚类算法研究被引量：5