为研究基于长短期记忆(Long Short-TermMemory,LSTM)网络的语音转文字系统的优化方法,首先说明LSTM在语音转文字任务中的基本原理和架构,其次分析自适应矩估计(Adaptive Moment Estimation,Adam)优化算法的核心机制及其在LSTM网络中的应...为研究基于长短期记忆(Long Short-TermMemory,LSTM)网络的语音转文字系统的优化方法,首先说明LSTM在语音转文字任务中的基本原理和架构,其次分析自适应矩估计(Adaptive Moment Estimation,Adam)优化算法的核心机制及其在LSTM网络中的应用,最后在Mozilla DeepSpeech框架中嵌入基于Adam优化的LSTM模型,并使用THCHS-30数据集进行实验。实验结果表明,基于Adam优化的LSTM模型在词错率和F1分数上均表现出显著的优越性。展开更多
针对中文儿童语音情感识别的准确性问题,提出了一种结合深度卷积神经网络(Deep Convolutional Neural Network,DPCNN)与堆叠长短时记忆(Stacked Long Short Term Memory,SLSTM)网络的融合模型,旨在提高中文儿童语音情感识别的准确性。通...针对中文儿童语音情感识别的准确性问题,提出了一种结合深度卷积神经网络(Deep Convolutional Neural Network,DPCNN)与堆叠长短时记忆(Stacked Long Short Term Memory,SLSTM)网络的融合模型,旨在提高中文儿童语音情感识别的准确性。通过DPCNN对语音信号中的长距离依赖关系进行提取,再利用SLSTM捕捉情感相关的序列依赖信息,最终通过softmax分类器实现情感状态的判别。实验结果显示,基于DPCNN-SLSTM的模型在中文儿童语音数据集上的情感识别准确率达到了92%,显著优于CNN、LSTM和CNN-LSTM模型。研究结果对于推动儿童语音情感识别技术的发展具有重要意义。展开更多
基于深度神经网络的方法已经在语声增强领域得到了广泛的应用,然而若想取得理想的性能,一般需要规模较大且复杂度较高的模型。因此,在计算资源有限的设备或对延时要求高的环境下容易出现部署困难的问题。为了解决此问题,提出了一种基于...基于深度神经网络的方法已经在语声增强领域得到了广泛的应用,然而若想取得理想的性能,一般需要规模较大且复杂度较高的模型。因此,在计算资源有限的设备或对延时要求高的环境下容易出现部署困难的问题。为了解决此问题,提出了一种基于深度复卷积递归网络的师生学习语声增强方法。在师生深度复卷积递归网络模型结构中间的复长短时记忆递归模块提取实部和虚部特征流,并分别计算帧级师生距离损失以进行知识转移。同时使用多分辨率频谱损失以进一步提升低复杂度学生模型的性能。实验在公开数据集Voice Bank Demand和DNS Challenge上进行,结果显示所提方法相对于基线学生模型在各项指标上均有明显提升。展开更多
文摘为研究基于长短期记忆(Long Short-TermMemory,LSTM)网络的语音转文字系统的优化方法,首先说明LSTM在语音转文字任务中的基本原理和架构,其次分析自适应矩估计(Adaptive Moment Estimation,Adam)优化算法的核心机制及其在LSTM网络中的应用,最后在Mozilla DeepSpeech框架中嵌入基于Adam优化的LSTM模型,并使用THCHS-30数据集进行实验。实验结果表明,基于Adam优化的LSTM模型在词错率和F1分数上均表现出显著的优越性。
文摘针对中文儿童语音情感识别的准确性问题,提出了一种结合深度卷积神经网络(Deep Convolutional Neural Network,DPCNN)与堆叠长短时记忆(Stacked Long Short Term Memory,SLSTM)网络的融合模型,旨在提高中文儿童语音情感识别的准确性。通过DPCNN对语音信号中的长距离依赖关系进行提取,再利用SLSTM捕捉情感相关的序列依赖信息,最终通过softmax分类器实现情感状态的判别。实验结果显示,基于DPCNN-SLSTM的模型在中文儿童语音数据集上的情感识别准确率达到了92%,显著优于CNN、LSTM和CNN-LSTM模型。研究结果对于推动儿童语音情感识别技术的发展具有重要意义。
文摘基于深度神经网络的方法已经在语声增强领域得到了广泛的应用,然而若想取得理想的性能,一般需要规模较大且复杂度较高的模型。因此,在计算资源有限的设备或对延时要求高的环境下容易出现部署困难的问题。为了解决此问题,提出了一种基于深度复卷积递归网络的师生学习语声增强方法。在师生深度复卷积递归网络模型结构中间的复长短时记忆递归模块提取实部和虚部特征流,并分别计算帧级师生距离损失以进行知识转移。同时使用多分辨率频谱损失以进一步提升低复杂度学生模型的性能。实验在公开数据集Voice Bank Demand和DNS Challenge上进行,结果显示所提方法相对于基线学生模型在各项指标上均有明显提升。