无端点检测汉语识别算法的实现及改进——动态时间规整和隐马尔可夫统一模型的应用被引量：1

A recognition algorithm without the ending point detection of chinese based on the DTW and HMM unified model

下载PDF

导出

摘要语音识别算法中，动态时间规整（ＤＴＷ）和隐马尔可夫模型（ＨＭＭ）是最有效的识别算法，并且两者之间有着本质的联系和内在的统一［１］，据此前期工作中，已经建立了ＤＴＷ和ＨＭＭ的统一模型（ＤＨＵＭ）［２、３］。本文对ＤＨＵＭ进行了改进，在ＤＨＵＭ中引进寂静段自环，并根据汉语语音的特点，提出了一种无端点检测的语音识别算法。在识别过程中，该算法无需确定语音信号起止点位置，而是从寂静段开始，直接按帧提取特征（帧长２０ｍｓ，帧间重叠５０％），特征向量由１５阶倒谱系数和帧平均能量组成。实验中，用ＤＨＵＭ实现了该算法，对９９个相似汉语单字的识别测试结果表明：无端点检测的识别正识率为９４．９５％，正识率下降很少，但不作端点检测却降低了算法的复杂程度。为进一步改善识别性能，特征向量采用一种听觉模型特征，识别器具有更好的鲁棒性，识别率会略有提高。 In speech recognition, dynamic time warping(DTW) and hidden Markov model(HMM)are the most effective algorithm,and there are intrinsical relations between them . According to this, an unified model of DTW&HMM has been established in previous work. In this paper, by introducing the self loop of the stationary segment of the DTW and HMM Unified Model (DHUM) ,and according to the characteristic of Chinese speech, a recognition algorithm without the ending point detection is proposed. Compared with the traditional method, in this algorithm, there is no necessary to decide the ending point of speech signals. From the stationary segment on, feature vectors, which consist of 15 order cepstrum coefficients and the average energy of each frame, are extracted in frames(length of each frame is 20 millisecond, the overlapping between two frames is 50%), this algorithm is successfully implemented. In recognition of 99 similar words of Chinese, a first candidate recognition rate of 94 95% is obtained. If an auditory feature is accepted for feature vectors, the robustness of the algorithm will be better.

作者张杰黄志同

机构地区南京理工大学自动控制系

出处《声学技术》 CSCD 1998年第4期181-185,共5页 Technical Acoustics

关键词语音识别隐马尔可夫模型动态时间规整汉语 speech recognition hidden Markov model dynamic time warping

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

同被引文献6

1崔庚寅,白文忠,管振龙,王厄舟,张凤娟.人耳对声源定位的时差研究[J].河北师范大学学报（自然科学版）,1994,18(4):84-86. 被引量：3
2钱城.微机和数字信号处理器模拟室内脉冲响应的音质仿真[J].声学技术,1995,15(4):172-174. 被引量：1
3BendatJS PiersolAG著凌福根译.相关分析和谱分析的工程应用[M].北京：国防工业出版社,1983.254-273.
4王仁华陈永彬.语音信号处理[M].合肥：中国科学技术大学出版社,1990.202-235.
5谷嘉锦.高声强声源及其应用[J].声学技术,1997,16(1):9-13. 被引量：9
6LawrenceRabiner.语音识别基本原理[M].北京：清华大学出版社,1999.104-167.

引证文献1

1胡跃辉,周康源,陈昕,施俊,周平,黄以华.有混响条件下的室内语音定向技术的研究[J].声学技术,2004,23(1):43-48.

1关存太,陈永彬,吴伯修.极低码率语音编码──汉语识别声码器[J].电子学报,1995,23(12):52-58.
2王永林.俄罗斯“亚马尔”卫星通信系统简介[J].电信技术研究,1997(1):57-58.
3王永林.俄罗斯“亚马尔”卫星通信系统[J].电信技术研究,1996(9):26-30.
4王永林.俄罗斯“亚马尔”卫星通信系统的进展[J].电信技术研究,1998(11):42-43.
5刘淑华,胡强,覃团发,梁琳.基于自相关函数最大值的语音端点检测方法[J].电声技术,2006,30(12):47-50. 被引量：10
6Altibox携手华为打造全球最快网络[J].电信网技术,2012(4):96-96.
7Altibox携手华为打造全球最快网络[J].移动通信,2012(7):94-94.
8陈勇,陈国评.A Bit Progress on Word-Based Language Model[J].Journal of Shanghai University(English Edition),2003,7(2):148-155.
9Sennheiser举行G3发布派对[J].世界专业音响与灯光,2009(6):69-69.
10段兴琦.神秘的马尔法光束[J].科海故事博览,2011(23):11-11.

声学技术

1998年第4期

浏览历史

内容加载中请稍等...

无端点检测汉语识别算法的实现及改进——动态时间规整和隐马尔可夫统一模型的应用被引量：1

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

无端点检测汉语识别算法的实现及改进——动态时间规整和隐马尔可夫统一模型的应用 被引量：1

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

无端点检测汉语识别算法的实现及改进——动态时间规整和隐马尔可夫统一模型的应用被引量：1