动态时间规正与差别子空间相结合的变异语音识别方法被引量：2

Stressful speech recognition method based on difference subspace integrated with dynamic time warping

下载PDF

导出

摘要分析了由于说话人受到重力加速度变化而产生的变异语音(应力影响下的变异语音)的特点,把变异语音分成主体部分和变异部分两方面进行研究,提出一种动态时间规正与差别子空间相结合的孤立词语音识别方法。该方法构造差别子空间去除变异部分的影响,利用语音的主体部分进行识别,采用动态时间规正技术对语音特征矢量进行长度对齐,并提出了相应的判别标准。实验结果表明,本方法对应力影响下的变异语音具有良好识别效果,对15个词的小词表,系统平均识别率达到98.3%,与正常语音的识别率基本相当。克服了话者在应力影响下由于心理紧张和生理情况的变化,语音发生严重变异,导致常规语音识别系统性能急剧下降的缺点。 Speech under G-Force was analyzed and considered as principal part and stressful part to research, which produced when speaker was under different acceleration of gravity. An isolated word recognition approach was proposed which integrated difference subspace means with dynamic time warping technique. The method recognized speech under G-Force by constructing a difference subspace to remove the stressful part. Dynamic time warping technique was adopted to make all feature vectors of one word in the training set have equal length, and a corresponding decision criterion was suggested. The experiments showed that for a small vocabulary including 15 words, the method obtained the average recognition rate of 98.3% , which almost equal to the rate in normal environment. The performance of general recognition system was degraded violently for the stressful speech, since G-Force had a direct physical impact on human speech production in addition to the influence on psychology. The method overcame the shortcoming perfectly, not only worked well in normal conditions but also had good performance for speech under G-Force.

作者吕成国韩纪庆王承发

机构地区哈尔滨工业大学计算机科学与技术学院

出处《声学学报》 EI CSCD 北大核心 2005年第3期229-234,共6页 Acta Acustica

基金国家自然科学基金资助项目(60085001)

关键词变异语音识别重力加速度动态时间规正平均识别率 Feature extraction Learning algorithms Word processing

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1马永林,韩纪庆,张磊,吕成国,王承发.基于Teager能量算子(TEO)基频的应力影响下的变异语音分类[J].声学学报,2002,27(6):518-522. 被引量：14
2王承发,徐近需,扬子云,韩纪庆,任为民,吕成国.高噪声背景下的孤立词语音识别方法研究及系统实现[J].声学学报,1998,23(3):257-265. 被引量：4
3张家騄.超音段特征间的相互作用[J].声学学报,1993,18(4):263-271. 被引量：3
4张家騄.元音的内在基频与讲话方式对共振峰的影响[J].声学学报,1989,14(6):401-406. 被引量：6
5陈景东,姚磊,黄泰翼.几种高鲁棒性通道及说话人自适应语音识别算法研究[J].声学学报,1998,23(6):537-544. 被引量：9
6田斌,易克初.一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法[J].声学学报,2003,28(1):28-32. 被引量：2
7王玉伟,张磊,韩纪庆.一种基于非线性特征的应力影响下变异语音识别方法[J].信号处理,2002,18(5):484-486. 被引量：3

二级参考文献36

1吕成国张磊等.G-Stress和Lombard效应作用下的变异语音谱图[J].高技术通讯增刊,2000,:223-226.
2[1]R.P.Lippmann, E.A.Martin, D.B.Paul. Multi-Style Train-ing for Robust Isolated-Word Speech Recognition,ICASSP87, 1987:705-708
3[2]J.H.L.Hansen, M.A.Clements. Stress Compensation and Noise Reduction Algorithms for Robust Speech Recogni-tion, ICASSP'89, 1989:266-269
4[3]Y. Chen. Cepstral Domain Talker Stress Compensation for Robust Speech Recognition, IEEE Transactions On Acoustics, Speech and Signal Processing, 1988, 36(4):433-439
5[5]H.M. Teager, S.M.Teager. Evident for Nonlinear Produc-tion Mechanisms in the Vocal Tract. Study Inst.Onspeech Production and Speech Modeling 1990.
6[6]Firas Jabloun, A.Enis Cetin. The Teager Energy Based Feature Parameters For Robust Speech Recognition In Car noise. ICASSP'99,1999:273-276
7[8]J.F.Kaiser. On a Simple Algorithm to Calculate the Energy of a Signal. ICASSP0, 1990:381-384
8[10]S.Bou-Ghazale and J.H.L Hansen.. Speech Feature Mode-ling for Robust Stressed Speech Recognition.ICSLP'98, 1998:918-921
9Lin Q，1990年
10张家--，Proc ICPhS，1987年，3卷，390页

共引文献31

1高慧,苏广川,陈善广.情绪化语音特征分析与识别的研究进展[J].航天医学与医学工程,2004,17(5):386-390. 被引量：11
2吕成国,韩纪庆,王承发,高文.动态时间规正与差别子空间相结合变异语音识别的在线训练方法[J].信号处理,2005,21(1):102-105.
3吕萍,颜永红.基于回归分析的语音识别快速自适应算法[J].声学学报,2005,30(3):222-228. 被引量：4
4高慧,苏广川,陈善广.不同情绪状态下汉语语音的声学特征分析[J].航天医学与医学工程,2005,18(5):350-354. 被引量：23
5王治平,赵力,邹采荣.基于基音参数规整及统计分布模型距离的语音情感识别[J].声学学报,2006,31(1):28-34. 被引量：26
6陈伟红.背景噪声下的语音识别技术研究[J].现代电子技术,2006,29(14):44-45. 被引量：1
7邓菁,郑方,刘建,吴文虎.Mel子带谱质心和高斯混合相关性在鲁棒话者识别中的应用[J].声学学报,2006,31(5):471-475. 被引量：3
8黄德智,蔡莲红.一种面向声音变换的参数化模型[J].声学学报,2006,31(6):542-548. 被引量：2
9黄海,陈祥献.基于Hilbert-Huang变换的语音信号共振峰频率估计[J].浙江大学学报（工学版）,2006,40(11):1926-1930. 被引量：12
10吕成国,韩纪庆.基于子空间方法的应力影响下变异语音分类[J].计算机工程与应用,2007,43(1):16-18.

同被引文献28

1刘海滨,吴镇扬,赵力,曾毓敏.噪声环境下基于最大后验非线性变换的隐马尔可夫模型自适应算法[J].声学学报,2004,29(5):467-471. 被引量：4
2赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
3张家禄齐士钤宋美珍等.汉语声调在言语可懂度中的重要作用.声学学报,1981,7:237-237.
4王成友,汤叔祺,梁甸农,陈辉煌,唐朝京.语音识别中多种特征信息综合利用的方法[J].声学学报,1997,22(2):111-115. 被引量：6
5Jonathan Foote, An overview of audio information retrieval. Multimedia Systems, 1999; 7(1): 2-11.
6Smoliar S W, Baker J D, Nakayama T, Wilcox L. Multimedia search: An authoring perspective. In: Proceedings of the First International Workshop on Image Databasesand Multimedia Search, 1996; 1:1-8.
7John Makhoul, Francis Kubala et al. Speech and Language Technologies for Audio Indexing and Retrieval. Proceedings of the IEEE, 2000; 88(8): 1338-1353.
8Smith G, Murase H, Kashino K. Quick audio retrieval using active search. In: Proc. Int. Conf. Acoustics, Speech,Signal Processing, 1998; 6:3777-3780.
9Kunio Kashino, Takayuki Kurozumi, Hiroshi Murase. Feature fluctuation absorption for a quick audio retrieval from long recordings. In: Proc. Int. Conf. Pattern Recognition,2000; 3:3102-3106.
10Johnson S E, Woodland P C. A Method for direct audio search with applications to indexing and retrieval. In:Proc, of International Conference on Acoustics, Speech and Signal Processing (ICASSP '2000), 2000; 3:1427-1430.

引证文献2

1郑贵滨,韩纪庆,李海峰,郑铁然.基于分段的实时声频检索方法[J].声学学报,2006,31(2):101-108. 被引量：5
2王欢良,钱瑶,F.K.Soong,韩纪庆.基于声调建模的带噪汉语数字串语音识别[J].声学学报,2007,32(5):454-460. 被引量：2

二级引证文献7

1黄浩,朱杰.汉语语音识别中基于区分性权重训练的声调集成方法[J].声学学报,2008,33(1):1-8. 被引量：2
2杨继臣,王伟凝.一种基于随机段的固定音频检索方法[J].计算机应用,2010,30(1):230-232. 被引量：4
3吕勇,吴镇扬.基于最大似然多项式回归的鲁棒语音识别[J].声学学报,2010,35(1):88-96. 被引量：3
4于志华,张兴明,杨镇西,张丽.一种高性能固定语音识别并行处理架构[J].计算机应用研究,2013,30(8):2419-2421. 被引量：1
5高晓芳,罗森林,吕英,罗志军,潘丽敏.双哈希索引的高精度大规模音频样例检索[J].声学学报,2015,40(6):886-893. 被引量：1
6陈树丽,张学帅,张鹏远,刘建.静音掩蔽和频域分段的音频指纹检索算法[J].声学学报,2022,47(4):531-540. 被引量：1
7王天逸,章宗标,王敏.一种音频样例重复检测方法的研究[J].浙江树人大学学报（自然科学版）,2013,13(1):1-5.

1吕成国,韩纪庆,王承发,高文.动态时间规正与差别子空间相结合变异语音识别的在线训练方法[J].信号处理,2005,21(1):102-105.
2张磊,韩纪庆,王承发.MFCC特征加权应力影响下的变异语音识别[J].哈尔滨工业大学学报,2002,34(6):743-747. 被引量：1
3马永林,韩纪庆,张磊,吕成国,王承发.基于Teager能量算子(TEO)基频的应力影响下的变异语音分类[J].声学学报,2002,27(6):518-522. 被引量：14
4薄涵睿.用谱斜率决定的加权法作变异语音特征理论方法及实验研究[J].航空计算技术,1997,27(3):15-18.
5毕继武,韩纪庆.一种新的修正Mel频率映射的应力影响下变异语音识别方法[J].计算机科学,2002,29(12):150-153.
6马永林,韩纪庆,张磊,王承发.基于修正Mel频率映射的应力影响下变异语音识别方法[J].计算机工程与应用,2002,38(20):75-76. 被引量：1
7王玉伟,张磊,韩纪庆.一种基于非线性特征的应力影响下变异语音识别方法[J].信号处理,2002,18(5):484-486. 被引量：3
8马明,张元,王建宇,黄志同.语音识别中的动态时间规正和隐马尔可夫模型等价性研究[J].郑州大学学报（自然科学版）,1996,28(2):34-39. 被引量：2
9张焱,姜惠春,黄志同.隐马尔可夫模型和动态时间现正统一框架下的汉语全音节语音识别研究[J].声学学报,1998,23(6):555-563. 被引量：8
10张培玲,成凌飞.基于MATLAB的汉语数字语音识别系统[J].机械管理开发,2011,26(4):205-207. 被引量：1

声学学报

2005年第3期

浏览历史

内容加载中请稍等...

动态时间规正与差别子空间相结合的变异语音识别方法被引量：2

参考文献7

二级参考文献36

共引文献31

同被引文献28

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

动态时间规正与差别子空间相结合的变异语音识别方法 被引量：2

参考文献7

二级参考文献36

共引文献31

同被引文献28

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

动态时间规正与差别子空间相结合的变异语音识别方法被引量：2