语音合成系统中语音库样本能量均衡方法研究被引量：4

Voice Energy Balance Method for Text to Speech Database

下载PDF

导出

摘要语音合成(Text to Speech,TTS)技术是实现人机语音通信的一项关键技术,语音库的质量是决定TTS效果的重要因素。本文针对TTS语音库制作周期长,发音人录音状态(音色、能量)差异而导致的TTS语音数据库录制后能量不一致问题,提出了一种语音能量均衡方法,包括时域包络波动检测和帧能量平均两个步骤。首先分析获得标准语音的相关能量参数和波动参数作为模板,利用时域包络波动检测算法对预调节语音样本的合格性进行检验;最后,根据帧能量平均准则,对所有合格语音样本进行时域幅值调整,以最大限度地保证语音库整体能量的一致性。实验结果表明,本文提出的语音能量均衡方法可以有效提升TTS语音库质量,具有实际工程意义。 The quality of speech library is an important factor,which determines the effect of Speech to Text（ TTS）. The production cycle of the TTS speech database needs about six months. During the period,the voice state recording needs to be consistent,that is,the tone and energy can not have a big difference,which is more difficult for pronunciation. Thus,this paper gives voice energy balance method,including the time-domain envelope detection algorithm and the frame energy average algorithm,aiming to solve the TTS speech database recording after the phenomenon of inconsistency. Firstly,obtaining the standard speech related energy parameters and wave parameters as a template; secondly,using the time-domain envelope fluctuation detection algorithm to check the pre-regulation speech samples test. Finally according to the frame energy average criterion of all qualified speech samples,adjusting the samples amplitude in time domain value,to maximize the overall energy of the speech database consistency. The experimental results show that the proposed method can effectively improve the quality of the TTS speech database,and has practical engineering significance.

作者刘伟谢建志

机构地区电子科技大学通信抗干扰技术国家重点实验室

出处《信号处理》 CSCD 北大核心 2017年第2期229-235,共7页 Journal of Signal Processing

关键词语音合成能量均衡时域包络波动检测 speech to text energy balance time-domain envelope detection

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1张勇,刘轶,刘宏.结合人耳听觉感知的两级语音增强算法[J].信号处理,2014,30(4):363-373. 被引量：7
2刘凤山,吕钊,张超,吴小培.改进小波阈值函数的语音增强算法研究[J].信号处理,2016,32(2):203-213. 被引量：14
3WU Di,ZHAO Heming,HUANG Chengwei,XIAO Zhongzhe,ZHANG Xiaojun,XU Yishen,TAO Zhi.Speech endpoint detection in low-SNRs environment based on perception spectrogram structure boundary parameter[J].Chinese Journal of Acoustics,2014,33(4):428-440. 被引量：9

二级参考文献37

1陈振标,徐波.基于子带能量特征的最优化语音端点检测算法研究[J].声学学报,2005,30(2):171-176. 被引量：22
2卜凡亮,王为民,戴启军,陈砚圃.基于噪声被掩蔽概率的优化语音增强方法[J].电子与信息学报,2005,27(5):753-756. 被引量：16
3陶智,赵鹤鸣,龚呈卉.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372. 被引量：39
4Loizou P.C,Kim G.Reasons why Current Speech-Enhancement Algorithms do not improve Speech Intdligibility and Suggested Solutions[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,2011,19(1):47-56.
5Virag.N.Signal channel speech enhancement based on masking properties of the human auditory system[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1999,7(2):126-137.
6Cao L,Zhang T.Q,Gao H.X,Yi C.Multi-band Spectral Subtraction Method Combined with Auditory Masking Properties for Speech Enhancement[C]//International Congress on Image and Signal Processing,Chongqing,China,2012:72-76.
7Lu C-T.Enhancement of single channel speech using perceptual-decision-directed approach[J].Speech Communication,2011,53(3):495-507.
8Lu C-T.Reduction of musical residual noise for speech enhancement using masking properties and optimal smoothing[J].Pattern Recognition Letters,2007,49 (4):1300-1306.
9Hu Y,Loizou P.C.A perceptually Motivated Approach for Speech Enhancement[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,2003,11 (5):457-465.
10Lu C-T,Tseng K-F.A gain factor adopted by masking property and SNR variation for speech enhancement in colored-noise corruptions[J].Computer Speech and Langnage,2010,24(3):632-647.

共引文献27

1王文益,伊雪.基于改进语音存在概率的自适应噪声跟踪算法[J].信号处理,2020,36(1):32-41. 被引量：8
2向前,唐勇.基于生成对抗网络的汉语语音增强技术研究[J].计算机应用研究,2020,37(S02):150-151. 被引量：2
3梁春燕,杨琳,周若华,颜永红.韵律特征在概率线性判别分析说话人确认中的应用[J].声学学报,2015,40(1):28-33. 被引量：6
4陈紫强,李欣阳,谢跃雷.结合相位谱补偿的调制域谱减法[J].信号处理,2015,31(4):468-473. 被引量：9
5LUO Yaqin,WU Xiaopei,L Zhao,PENG Kui,GUI Yajun.A recursive calculating algorithm for higher-order cumulants over sliding window and its application in speech endpoint detection[J].Chinese Journal of Acoustics,2015,34(4):436-449. 被引量：5
6叶琪,陶亮,周健,王华彬.基于噪声谱约束的二值掩码估计语音增强算法[J].信号处理,2016,32(1):70-76. 被引量：1
7史小龙,李晓玲,高虹霓,韩枫.全息显控界面中多通道人机交互技术研究[J].包装工程,2016,37(4):120-124. 被引量：10
8刘凤山,吕钊,张超,吴小培.改进小波阈值函数的语音增强算法研究[J].信号处理,2016,32(2):203-213. 被引量：14
9覃贵礼,罗云芳,潘泽锴.基于谱相减改进算法的语音增强系统的实现研究[J].河池学院学报,2016,36(2):73-78. 被引量：1
10章小兵,李燕萍,王双杰.基于改进HHT的语音端点检测[J].计算机工程,2016,42(6):171-174. 被引量：4

同被引文献52

1井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
2杜建清.云计算技术在综合电子信息系统中的应用研究[J].自动化与仪器仪表,2016(5):181-182. 被引量：3
3杨跃武,赵瑞丽.基于电话交换机电子计时计费系统校准结果的研究[J].自动化与仪器仪表,2016(5):226-227. 被引量：3
4李仕萍,凌卫新,陈卓铭,蒋耀宇,钟金钢,黄伟新.语言障碍诊断系统的设计及实现[J].计算机工程与应用,2004,40(30):191-193. 被引量：7
5马英杰,陈骥,帅杰.基于语音识别的失语症康复治疗仪软件设计与实现[J].生物医学工程学杂志,2006,23(6):1343-1346. 被引量：7
6张锋,陈硕.多点触控交互方式的回顾与展望[J].人类工效学,2010,16(4):76-78. 被引量：12
7迟健男,王志良,谢秀贞,徐凯,方洪亮,徐永云,李颖.多点触摸人机交互技术综述[J].智能系统学报,2011,6(1):28-37. 被引量：20
8陈浩淼,申黎明,宋杰,周倩.按摩模式对揉捏式按摩椅按摩舒适性的影响[J].人类工效学,2012,18(2):40-43. 被引量：21
9严焰,刘蓉,黄璐,陈婷.基于HMM的手势识别研究[J].华中师范大学学报（自然科学版）,2012,46(5):555-559. 被引量：12
10丁晨,王君泽,瞿畅,高瞻.Kinect体感交互技术及其在医疗康复领域的应用[J].中国康复理论与实践,2013,19(2):136-138. 被引量：32

引证文献4

1张琳,吴建明.基于计算机技术的钢琴音色识别与电子合成系统设计[J].自动化与仪器仪表,2018,0(10):79-82. 被引量：6
2杨随先,刘行,康慧,李晴.互联网+智能设计背景下的交互设计与体验[J].包装工程,2019,40(16):1-13. 被引量：20
3宋伟,张杨豪.构音障碍语音识别算法研究综述[J].计算机工程与应用,2024,60(11):62-74. 被引量：1
4王小月.基于Linux平台语音识别考勤系统的设计与实现[J].软件,2024,45(5):92-94.

二级引证文献27

1汪园园.计算机语言的逻辑开发与软件开放设计应用[J].信息与电脑,2018,30(22):60-61. 被引量：1
2仝智倍.基于人工智能的钢琴编曲音色识别系统设计[J].现代电子技术,2020,43(4):183-186. 被引量：4
3张硕,李燕,朱斐,谭孝勤,廖艺舒,岳云龙.视觉识别在校服交互设计中的应用[J].轻纺工业与技术,2020,49(3):48-48.
4樊姝婷,余肖红,胡玲玲,康特铭.智能办公家具的用户体验要素模型构建[J].家具与室内装饰,2020,0(2):39-41. 被引量：10
5葛婷.情感化设计在可穿戴设备中的应用——以小米手环4为例[J].工业设计,2020(5):113-114. 被引量：4
6张弘韬.5G时代移动虚拟品牌社区的交互与体验设计[J].湖南工业大学学报（社会科学版）,2020,25(3):16-21. 被引量：1
7罗京艳,王艺璇.天津非物质文化遗产创新与旅游产品体验设计研究[J].包装工程,2020,41(16):10-14. 被引量：7
8周橙旻,冷超霞,詹先旭,贾焕亮,康明红.基于国潮文化的家具设计策略应用探析[J].家具,2020,41(5):10-14. 被引量：28
9邢洁.立式击弦机半自动组装结构复奏性能研究[J].自动化与仪器仪表,2020(10):97-100.
10范昕怡,陈玮(指导).大数据视野下的“互联网+”室内设计[J].艺术科技,2020,33(21):145-146. 被引量：7

1张珂,高原,裴峰.基于MATLAB和VB的船舶短时电压波动检测软件设计[J].船电技术,2007,27(1):51-53.
2周植鹏.使用PROTEL应注意的两个问题[J].矿业安全与环保,1999,26(3):34-35.
3李彦栓,罗明,李霞.基于高阶累积量的OFDM信号调制识别技术[J].电子信息对抗技术,2012,27(4):1-4. 被引量：11
4张亦弛,黄见明,何昭.基于相位谱测量的脉冲调制信号频域测量方法[J].仪器仪表学报,2014,35(11):2508-2514. 被引量：11
5两用功能两份快乐——朝华魔音双子系列MP3[J].电脑高手,2004(5):107-107.
6付明星.暗环境下的瞳孔波动检测[J].计算机与现代化,2016(4):21-24.
7陈溯.ADPCM语音压缩编码的分析与仿真[J].中国西部科技,2008,7(32):52-53. 被引量：7
8杨琳,张建平,王迪,颜永红.基于频率调制信息的人工耳蜗语音处理算法研究[J].声学学报,2009,34(2):151-157. 被引量：4
9张贵锋,李永兵,王士元.EXB841的自身保护及驱动电压的调整[J].电焊机,2000,30(2):16-18. 被引量：2
10郭黎利,吴丹,孙志国.基于累积量和循环平稳参量的OFDM信号盲检测[J].电路与系统学报,2010,15(6):68-74.

信号处理

2017年第2期

浏览历史

内容加载中请稍等...

语音合成系统中语音库样本能量均衡方法研究被引量：4

参考文献3

二级参考文献37

共引文献27

同被引文献52

引证文献4

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

语音合成系统中语音库样本能量均衡方法研究 被引量：4

参考文献3

二级参考文献37

共引文献27

同被引文献52

引证文献4

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

语音合成系统中语音库样本能量均衡方法研究被引量：4