基于语音转折点检测的改进波形相似叠加时长规整算法被引量：1

Improved Waveform Similarity Overlap-and-Add Time Warping Algorithm Based on Speech Turning Point Detection

下载PDF

导出

摘要波形相似叠加算法忽略语音本身感知特性,对整段语音统一规整,在采样率较低或规整比例较大时处理效果不佳。为此,通过分析人耳听觉系统的预测特点,提出一种改进的波形相似叠加时长规整算法。采用子带谱熵法检测出语音的转折部分并保持其不变,以保证转折区的语音信息不受损坏,并给出一种局部补偿法以修正整体规整精度。仿真结果表明,该算法在整体规整比例不变的情况下可提高合成语音的自然度。 The Waveform Similarity Overlap-and-Add（WSOLA）algorithm neglects the perceptual characteristics of real sound speech signals,and employs uniform time scaling of the entire signal.When sampling rate is low or scaling proportion is large,the scale quality is degraded.Aiming at such problems,an enhanced WSOLA algorithm is proposed through analyzing the acoustic prediction characteristics of human auditory system.This method detects the turning points of the speech using a subband spectrum entropy measure and leaves them intact to ensure the turning points undamaged,while time scaling the remainder of the signal.A local compensate measure is further put forward to correct the whole scale accuracy.Simulation results show that the new algorithm improves the natural degree of the synthetic speech signals with the whole scale proportion unchanged.

作者雷颖思杨燕

机构地区兰州交通大学电子与信息工程学院

出处《计算机工程》 CAS CSCD 北大核心 2015年第10期260-264,共5页 Computer Engineering

基金甘肃省科技厅自然科学基金资助项目(1310RJZA050)

关键词时长规整算法波形相似叠加算法听觉预测转折点检测子带谱熵局部补偿法 time warping algorithm Waveform Similarity Overlap-and-Add（WSOLA）algorithm acoustic prediction turning point detection subband spectrum entropy local compensation method

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献17

1Moulines E,Laroche J.Non-parametric Techniques for Pitch-scale and Time-scale Modification of Speech[J].Speech Communication,1995,16(2):175-205.
2Stylianou Y,CappéO,Moulines E.Continuous Probabilistic Transform for Voice Conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142.
3Nejime Y,Aritsuka T,Imamura T,et al.A Portable Digital Speech-rate Converter for Hearing Impairment[J].IEEE Transactions on Rehabilitation Engineer-ing,1996,4(2):73-83.
4Arfib D,Verfaille V.Driving Pitch-shifting and Time-scaling Algorithms with Adaptive and Gestural Techniques[C]//Proceedings of the 6th International Conference on Digital Audio Effects.London,UK:[s.n.],2003.
5Amatriain X,Bonada J,Loscos A,et al.Content-based Transformations[J].Journal of New Music Research,2003,32(1):95-114.
6Roucos S,Wilgus A.High Quality Time-scale Modification for Speech[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1985:493-496.
7Griffin D,Lim J S.Signal Estimation from Modified Short-time Fourier Transform[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1984,32(2):236-243.
8McAulay R,Quatieri T F.Speech Analysis/Synthesis Based on a Sinusoidal Representation[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1986,34(4):744-754.
9叶锡恩,张巧文.基于WSOLA算法的语音时长调整研究[J].科技通报,2005,21(5):593-596. 被引量：4
10周俊,高悦,谭薇,陈砚圃.语音时长规整技术的研究回溯[J].现代电子技术,2006,29(18):102-105. 被引量：6

二级参考文献34

1杜守富,毛启容,詹永照.自适应同步叠加语音时长规整算法[J].通信学报,2005,26(2):136-140. 被引量：4
2叶锡恩,张巧文.基于WSOLA算法的语音时长调整研究[J].科技通报,2005,21(5):593-596. 被引量：4
3周俊,高悦,谭薇,陈砚圃.语音时长规整技术的研究回溯[J].现代电子技术,2006,29(18):102-105. 被引量：6
4Wong P H W,Au, O C. Fast SOLA-based time-scale modification using modified envelope matching [C]//Proceedings of ICASSP 2002. Hong Kong, China:[s. n.],2002.
5Makhoul J, El-jaroudi A. Time-scale modification in medium to low rate speech coding[J]. Proc ICASSP, 1986,311075-1078.
6Philipos C L. Mimicking the human ear[J].IEEE Signal Processing Magazine, 1998,15(5) : 101-130.
7Fmui S. On the role of spectral transition for speechperception[J].J Acoust Soc Amer, 1986, 80(4): 1016-1025.
8Stevens K N. Acoustic correlates of some phonetic categories[J].J Acoust Soc Amer, 1980,68(3):836- 842.
9Rabiner L, Juang B H. Fundamentals of speech recognition [M]. Englewood Cliffs, N J: Prentice-Hall, 1993: 100-117.
10Deller J R, Hansen J H L, Proakis J G. Discretetime processing of speech signals[M]. New York, USA:Macmillan Publishing Company, 1993: 289-303.

共引文献9

1谢贵武,丁竑,汤云革,张雄伟,杨继红.基于时长调整技术的低速率语音编码算法[J].军事通信技术,2010(1):51-55.
2谢贵武,杨继红,肖勇,闵刚.基于语音分段的自适应时长调整算法[J].军事通信技术,2008(2):56-59. 被引量：2
3谢贵武,杨继红,张雄伟,闵刚,肖勇.时域基音同步叠加(TD-PSOLA)算法研究[J].军事通信技术,2008(3):26-29.
4陆敏,施未来,黄湘鹏.基于波峰/波谷动态规划基音标注[J].压电与声光,2009,31(6):918-920. 被引量：1
5莫双燕,关海欣,郑可欣.语音时长调整快速算法[J].声学技术,2010,29(5):507-511. 被引量：1
6张晓蕊,田岚.语音变调方法分析及音效评估[J].山东大学学报（工学版）,2011,41(1):1-6. 被引量：4
7Zhou Ying Zhang Linghua.AN IMPROVED ALGORITHM OF GMM VOICE CONVERSION SYSTEM BASED ON CHANGING THE TIME-SCALE[J].Journal of Electronics(China),2011,28(4):518-523.
8汪石农,许钢.改进相位声码器的音频时长变换算法研究[J].计算机工程与应用,2012,48(36):155-159.
9杨燕,雷颖思,岳辉.基于发音机制的贪婪自适应语音时长规整算法[J].计算机工程,2015,41(8):212-217.

同被引文献6

1张晓蕊,田岚.语音变调方法分析及音效评估[J].山东大学学报（工学版）,2011,41(1):1-6. 被引量：4
2李云鸿,胡修林,张蕴玉.基于人耳听觉模型的语音质量客观评价方法[J].华中理工大学学报,2000,28(5):63-65. 被引量：19
3陈泉金,黄君灿,陈航.白噪声不同信噪比对语音基音和共振峰的影响研究[J].刑事技术,2015,40(1):49-54. 被引量：5
4宋阳,凌震华,戴礼荣.基于受限玻尔兹曼机的频谱建模与单元挑选语音合成方法[J].模式识别与人工智能,2015,28(8):673-679. 被引量：3
5Xian Li,Zengfu Wang.A HMM-based Mandarin Chinese Singing Voice Synthesis System[J].IEEE/CAA Journal of Automatica Sinica,2016,3(2):192-202. 被引量：4
6李力利.数字音频变调算法的研究[J].电声技术,2003,27(6):18-20. 被引量：9

引证文献1

1张栋,彭建云,余春艳.稳定音色的音乐语音变调方法[J].计算机工程,2018,44(3):315-321. 被引量：4

二级引证文献4

1张琳,吴建明.基于计算机技术的钢琴音色识别与电子合成系统设计[J].自动化与仪器仪表,2018,0(10):79-82. 被引量：5
2余莉娟.基于特征识别的背景音乐音质提升与应用[J].微型电脑应用,2021,37(2):153-156. 被引量：1
3左张弛.基于傅里叶分析方法的钢琴音色识别与电子合成系统研究[J].自动化技术与应用,2021,40(2):137-140. 被引量：3
4杨蕾,张雁辉,张育中,张腾达,卢荣胜.面向新工科的信号与系统项目式教学研究——以傅里叶变换为例[J].中国教育技术装备,2022(7):63-67.

1芶小珊.一种基于背景建模的目标检测算法[J].山东工业技术,2016(16):271-272. 被引量：1
2杜守富,毛启容,詹永照.自适应同步叠加语音时长规整算法[J].通信学报,2005,26(2):136-140. 被引量：4
3张毅,王可佳,席兵,颜博.基于子带能熵比的语音端点检测算法[J].计算机科学,2017,44(5):304-307. 被引量：11
4李灵光.一种时频结合的抗噪性端点检测算法[J].计算机与现代化,2011(8):29-31. 被引量：5
5周俊,高悦,谭薇,陈砚圃.语音时长规整技术的研究回溯[J].现代电子技术,2006,29(18):102-105. 被引量：6
6余旺盛,侯志强.快速滤除脉冲噪声的八向叠加算法[J].计算机工程与应用,2009,45(29):150-152.
7苏旺辉,刘永平,刘玉胜.实现大整数乘积精确值的一个算法[J].天水师范学院学报,2008,28(2):21-22.
8周俊,陈砚圃,谭薇,高悦.语音时长规整SOLA算法的最佳参数选择[J].微电子学与计算机,2007,24(4):54-58. 被引量：2
9IPS屏幕终于来了 8英寸平板这回“可以有”[J].电脑爱好者,2012(20):98-99.
10祝玉华,甄彤,陈永华,王家耀.地理信息要素与地形景观叠加算法的研究[J].计算机应用研究,2004,21(7):245-247. 被引量：2

计算机工程

2015年第10期

浏览历史

内容加载中请稍等...

基于语音转折点检测的改进波形相似叠加时长规整算法被引量：1

参考文献17

二级参考文献34

共引文献9

同被引文献6

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于语音转折点检测的改进波形相似叠加时长规整算法 被引量：1

参考文献17

二级参考文献34

共引文献9

同被引文献6

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于语音转折点检测的改进波形相似叠加时长规整算法被引量：1