-
题名基于深度神经网络的藏语语音关键词检索方法
- 1
-
-
作者
张恒
拉巴顿珠
官政先
肖鑫
-
机构
西藏大学信息科学技术学院西藏信息化省部共建协同创新中心
-
出处
《西藏科技》
2024年第6期73-80,共8页
-
基金
2022年西藏大学大学生创新性实验训练计划项目(2022XCX085)。
-
文摘
语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换等方式对语音数据进行预处理;其次,使用MFCC从语音信号中提取出有效的特征作为模型的输入;再次,分别采用GMM-HMM和DNN-HMM模型对藏语声学特征进行建模。同时,为了提高模型的表现力和泛化能力,文章在模型中引入预训练和微调技术,对模型的结构进行了优化。实验结果表明,与传统基于GMM-HMM声学模型的识别结果相比,采用基于DNN-HMM声学模型的关键词检测方法能够更有效地检测出藏语语音关键词。
-
关键词
声学模型
藏语
深度学习
关键词检测
语音识别
-
Keywords
Acoustic model
Tibetan
Deep learning
Keyword detection
Speech recognition
-
分类号
TN912.3
[电子电信—通信与信息系统]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名端到端的藏语语音合成方法
被引量:2
- 2
-
-
作者
拉巴顿珠
珠杰
欧珠
尼玛
-
机构
西藏大学信息科学技术学院西藏信息化省部共建协同创新中心
西藏民族大学
-
出处
《应用声学》
CSCD
北大核心
2023年第2期324-332,共9页
-
基金
国家自然科学基金项目(62066042,61872254,62162057)
教育部人文社会科学研究项目(21YJCZH059,20YJA740035)
西藏大学培育计划项目(ZDCZJH21-10)。
-
文摘
近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理新技术,其中基于深度神经网络算法,端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用,取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据;其次,利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了合成语音的自然度。因此,基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值,值得进一步研究和推广应用。
-
关键词
语音合成
藏语
字音转换
端到端
Tacotron2
-
Keywords
Speech synthesis
Tibetan
Phoneme transformation
End-to-end
Tacotron2
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-