语音合成(Text to Speech,TTS)技术是实现人机语音通信的一项关键技术,语音库的质量是决定TTS效果的重要因素。本文针对TTS语音库制作周期长,发音人录音状态(音色、能量)差异而导致的TTS语音数据库录制后能量不一致问题,提出了一种语音...语音合成(Text to Speech,TTS)技术是实现人机语音通信的一项关键技术,语音库的质量是决定TTS效果的重要因素。本文针对TTS语音库制作周期长,发音人录音状态(音色、能量)差异而导致的TTS语音数据库录制后能量不一致问题,提出了一种语音能量均衡方法,包括时域包络波动检测和帧能量平均两个步骤。首先分析获得标准语音的相关能量参数和波动参数作为模板,利用时域包络波动检测算法对预调节语音样本的合格性进行检验;最后,根据帧能量平均准则,对所有合格语音样本进行时域幅值调整,以最大限度地保证语音库整体能量的一致性。实验结果表明,本文提出的语音能量均衡方法可以有效提升TTS语音库质量,具有实际工程意义。展开更多
文摘语音合成(Text to Speech,TTS)技术是实现人机语音通信的一项关键技术,语音库的质量是决定TTS效果的重要因素。本文针对TTS语音库制作周期长,发音人录音状态(音色、能量)差异而导致的TTS语音数据库录制后能量不一致问题,提出了一种语音能量均衡方法,包括时域包络波动检测和帧能量平均两个步骤。首先分析获得标准语音的相关能量参数和波动参数作为模板,利用时域包络波动检测算法对预调节语音样本的合格性进行检验;最后,根据帧能量平均准则,对所有合格语音样本进行时域幅值调整,以最大限度地保证语音库整体能量的一致性。实验结果表明,本文提出的语音能量均衡方法可以有效提升TTS语音库质量,具有实际工程意义。