递归趋势分析在汉语语音声韵母切分中的应用研究被引量：5

The Application of Recurrence Trend Analysis in I/F Segmentation for Mandarin Speech

下载PDF

导出

摘要基于隐马尔可夫模型(HMM)的连续语音自动切分方法由于较高的切分精度得到了广泛的应用,然而其切分结果还不能够直接应用于基于脚本的语音拼接合成系统,需要音素边界的再调整。本文分析了不同的汉语语音音素的非线性动力学物理模型在其递归图(RP)上的表现,通过递归趋势(RT)这一衡量系统稳定性程度的量化参数,揭示了语音产生过程中的不稳定性。结合基于HMM的连续语音初始切分结果,从定位语音动力学特性突变点的角度,调整声韵母切分边界,在10、20、30毫秒基准范围内,切分精度分别提高了13.88%、4.19%、3.19%。 Although the standard HMM-based method for automatic speech segmentation exhibits superior performance compared with other approaches, the segmentation results are not accurate enough for the corpus-based concatenative speech synthesis. In this paper, we describe different topological structures using recurrence plots （RPs） for different physical modeling of speech production, e. g. periodicity for the oscillation of voiced sounds, homogeneity for the turbulent source of unvoiced sounds and abrupt changes for stop consonants. As a quantification parameter to measure the nonstationarity of speech dynamics, recurrence trend （RT） explicitly reveals such phenomena. Time-dependent recurrence trend （TDRT） is then proposed to identify the dynamical change point as the suitable Initial/ Final （I/F） boundary for mandarin speech. Experimental results show that the accuracy on the continuous mandarin speech database using HMM-hased approach can be remarkably improved with TDRT correction process by 13.88% ,4.19% ,3.19% within 10 ms, 20 ms and 30 ms respectively.

作者闫润强祖漪清朱贻盛

机构地区上海交通大学生命科学学院摩托罗拉中国研究中心

出处《信号处理》 CSCD 北大核心 2007年第4期521-525,共5页 Journal of Signal Processing

基金国家重点基础研究发展规划项目(973计划)(No.2005CB724303)

关键词隐马尔可夫模型基于脚本的语音拼接合成系统语音动力学递归图递归趋势分析 Hidden Markov model Corpus-based concatenative speech synthesis Speech dynamics Recurrence plot Recurrence trend analysis

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献17

1Chou F,Tseng C and Lee L. A Set of Corpus-Based Textto-Speech Synthesis Technologies for Mandarin Chinese. IEEE Transactions on Speech and Audio Processing,2002, vol. 10, pp. 481 - 494.
2Husson J L. Evalution of a Segmentation System Based on Multi-level Lattics. EUROSPEECH, 1999, pp. 471 - 474.
3Malfrere F, Deroo O, Dutoit T, et al. Phonetic Alignment: Speech Synthesis-Based vs. Viterbi-Based. Speech Communication ,2003, vol. 40, pp. 503 - 515.
4Talkin D and Wightman C W. The Aligner:Text-to-Speech Alignment Using Markov Models and a Pronunciation Dictionary. Proceedings of Second ESCA/IEEE Workshop on Speech Synthesis, 1996, pp. 89 - 92.
5Hosom J P. Automatic Time Alignment of Phonemes Using Acoustic-Phonetic Information, Oregon Graduate Institute of Science and technology,2000.
6van Santen J P H and Sproat R W. High-Accuracy Automatic Segmentation. EUROSPEECH, 1999, pp. 2809 - 2812.
7Wu Y, Kawai H, Ni J, et al. Discriminative Training and Explicit Duration Modeling for HMM-based Automatic Segmentation. Speech Communication, 2005, vol. 47, pp. 397 -410.
8Faundez-Zanuy M, Kubin G, Kleijin W B, et al. Nonlinear Speech Processing:Overview and Applications. Control and Intelligent Systems,2002, vol. 30, pp. 1 - 10.
9Kleijn W B and Paliwal K K. Speech Coding and Synthesis. Elsevier Science B, V. , 1995.
10Kantz H and Schreiber T. Nonlinear Time Series Analysis. Cambridge University Press, 1997.

同被引文献57

1何新,王晓兰,周献中.汉语语音识别中的一种音节分割方法[J].火力与指挥控制,2004,29(6):94-96. 被引量：5
2栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
3邝航宇,张军,韦岗.一种基于检测元音的孤立词端点检测算法[J].电声技术,2005,29(3):40-43. 被引量：5
4金宁德,陈万鹏.混沌递归分析在油水两相流流型识别中的应用[J].化工学报,2006,57(2):274-280. 被引量：15
5袁昌松,雷敏,朱向阳.基于定量分析方法的动作表面肌电信号分析[J].生物物理学报,2006,22(2):139-143. 被引量：2
6李朝晖,迟惠生.听觉外周计算模型研究进展[J].声学学报,2006,31(5):449-465. 被引量：22
7史玲娜.基于道路交通的相空间重构[J].重庆交通学院学报,2006,25(6):112-115. 被引量：1
8O' Shaughnessy D.Invited paper: automatic speech recognition: History,methods and challenges[J].Pattern Recognition,2008,41: 2965-2979.
9Lee Chin-Hui. From knowledge-ignorant to knowledge-rich modeling: A new speech research paradigm for next gen- eration automatic speech recognition. In: Proc. Of ICSLP Keynote speech, Jeju Island, Korea, 2004:213 216.
10Toledano D T, Gomez L A H, Grande L V. Automatic phonetic segmentation. IEEE Transactions on A U- DIO SPEECH and LA NG UA GE Processing, 2005; 11 (6): 617-625.

引证文献5

1王艳,冯宏伟,张利平,忽满利.基于元音检测的汉语连续语音声韵母分割[J].计算机工程与应用,2011,47(14):134-136. 被引量：7
2陈斌,张连海,王波,屈丹.基于Seneff听觉谱特征的汉语连续语音声韵母边界检测[J].声学学报,2012,37(1):104-112. 被引量：6
3李皓,唐朝京.采用损失函数和声学特征切分声韵母的方法[J].声学学报,2012,37(3):339-345. 被引量：3
4贾亮,尹伊,杨慧超.递归分析在带噪语音端点检测中的应用[J].沈阳航空航天大学学报,2017,34(6):83-86. 被引量：1
5孙梦娜,李天昊.连续语音声韵母自动分段算法研究[J].测控技术,2020,39(11):73-79.

二级引证文献13

1高桥,张二华.基于基音周期轨迹的连续汉语语音切分技术研究[J].计算机与数字工程,2023,51(1):163-167.
2赵芳丽.基于praat软件的俄语读音分析[J].计算机工程与应用,2012,48(11):133-136. 被引量：3
3张连海,陈斌,屈丹.基于发音特性的摩擦音和塞擦音分类算法[J].计算机科学,2012,39(9):211-214. 被引量：1
4石锐,叶亮亮,何庆华.基于音频波形极值的基音检测方法[J].计算机工程与应用,2012,48(32):107-112.
5李正友,李天伟,黄谦,隋振庚.一种新的VDR浊语音检测方法[J].计算机应用研究,2013,30(8):2461-2463.
6张连海,陈斌,屈丹,李弼程.基于能量变化率的汉语塞音检测算法[J].中文信息学报,2014,28(3):116-122. 被引量：1
7王熙月,黄毅鹏,钱佳慧,何凌,黄华,尹恒.基于声学特征的腭裂语音声韵母切分[J].计算机工程与应用,2018,54(8):123-130. 被引量：3
8李洺宇,金小峰.朝鲜语语音音节自动切分算法的研究[J].延边大学学报（自然科学版）,2019,45(2):128-135.
9朱铮宇,邱华愉,杨春玲,王泳.基于特定韵母发音事件分析的语音唇动一致性判决方法[J].华南理工大学学报（自然科学版）,2020,48(1):139-146. 被引量：4
10马平川,毛渤淳,郭春丽,于晨浩,李若琳,何凌,尹恒.汉语普通话腭裂语音数据库的搭建与应用[J].华西口腔医学杂志,2020,38(2):149-154. 被引量：6

1闫润强,朱贻盛.基于定量递归分析的清浊音判决[J].电子与信息学报,2007,29(7):1703-1706. 被引量：10
2侯丽敏,张吉庆.一种新型汉语语音声韵母切分方法[J].兰州大学学报（自然科学版）,1998,34(3):40-43.
3董艳磊.浅议信息源个体识别[J].数字技术与应用,2012,30(3):196-196.
4刘翼光.移动WiMAX参数指标及射频测试[J].中国多媒体通信,2009(9):27-29.
5李晋,王景芳,高金定.基于经验模态分解和递归图的语音端点检测算法[J].计算机工程与应用,2010,46(34):132-135. 被引量：6
6王景芳,许慧燕.基于递归分析的基音检测新方法[J].计算机工程与应用,2012,48(13):125-129. 被引量：1
7凌继平,黄定东,邓异,刘仁杰.基于递归图和近似熵的水下目标特征提取方法[J].计算机与数字工程,2011,39(11):147-150. 被引量：7
8陈静,李亚安,王东海.基于递归分析的水声信号处理[J].哈尔滨工程大学学报,2006,27(5):649-652. 被引量：9
9陆满君,詹毅,司锡才,杨小牛.通信辐射源瞬态特征提取和个体识别方法[J].西安电子科技大学学报,2009,36(4):736-740. 被引量：20
10芮瑞,鲍长春.基于非线性动力学的乐器分类方法[J].电子学报,2012,40(7):1481-1488. 被引量：2

信号处理

2007年第4期

浏览历史

内容加载中请稍等...

递归趋势分析在汉语语音声韵母切分中的应用研究被引量：5

参考文献17

同被引文献57

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

递归趋势分析在汉语语音声韵母切分中的应用研究 被引量：5

参考文献17

同被引文献57

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

递归趋势分析在汉语语音声韵母切分中的应用研究被引量：5