期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于深度神经网络的藏语语音关键词检索方法
1
作者 张恒 拉巴顿珠 +1 位作者 官政先 肖鑫 《西藏科技》 2024年第6期73-80,共8页
语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换... 语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换等方式对语音数据进行预处理;其次,使用MFCC从语音信号中提取出有效的特征作为模型的输入;再次,分别采用GMM-HMM和DNN-HMM模型对藏语声学特征进行建模。同时,为了提高模型的表现力和泛化能力,文章在模型中引入预训练和微调技术,对模型的结构进行了优化。实验结果表明,与传统基于GMM-HMM声学模型的识别结果相比,采用基于DNN-HMM声学模型的关键词检测方法能够更有效地检测出藏语语音关键词。 展开更多
关键词 声学模型 藏语 深度学习 关键词检测 语音识别
下载PDF
端到端的藏语语音合成方法 被引量:2
2
作者 拉巴顿珠 珠杰 +1 位作者 欧珠 尼玛 《应用声学》 CSCD 北大核心 2023年第2期324-332,共9页
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种... 近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。 展开更多
关键词 语音合成 藏语 字音转换 端到端 Tacotron2
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部