为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨...为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨导语音转气导语音的语音转换模型。该模型利用DBLSTM层收集和保存相邻连续帧的隐藏信息,再通过DCNN层来提取频域方面的特征信息,可以很好地解决由于骨导语音高频成份严重缺失导致的转换语音不够自然的问题。实验结果表明,该模型的语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、对数谱距离(Log-spectral Distance,LSD)等客观评价指标均有良好的表现,证明了该模型在骨导语音转气导语音方面具有较好的转换效果。展开更多
文摘为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨导语音转气导语音的语音转换模型。该模型利用DBLSTM层收集和保存相邻连续帧的隐藏信息,再通过DCNN层来提取频域方面的特征信息,可以很好地解决由于骨导语音高频成份严重缺失导致的转换语音不够自然的问题。实验结果表明,该模型的语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、对数谱距离(Log-spectral Distance,LSD)等客观评价指标均有良好的表现,证明了该模型在骨导语音转气导语音方面具有较好的转换效果。