-
题名基于子音节表征的苗语语音合成方法
- 1
-
-
作者
蔡姗
王林
谭棉
郭胜
吴磊
王飞
-
机构
贵州民族大学数据科学与信息工程学院
贵州省模式识别与智能系统重点实验室
贵州民族大学人文科技学院
-
出处
《科学技术与工程》
北大核心
2024年第19期8176-8185,共10页
-
基金
国家自然科学基金(62162012)
贵州省科技计划(黔科合基础-ZK[2022]一般195,黔科合基础-ZK[2023]一般143,黔科合平台人才-ZCKJ[2021]007)
+4 种基金
贵州省教育厅自然科学研究项目(黔教技[2023]061号,黔教技[2023]012号,黔教技[2022]015号)
贵州省青年科技人才成长项目(黔教合KY字[2021]115,黔教合KY字[2021]110)
贵州省模式识别与智能系统重点实验室开放课题(GZMUKL[2022]KF01,GZMUKL[2022]KF05)
贵州省高层次创新型人才项目(黔科合平台人才-GCC[2023]027)
教育部产学合作协同育人项目(221001766110209)。
-
文摘
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。
-
关键词
苗语语音合成
子音节
单调对齐
语料库
梅尔谱图
-
Keywords
Hmong language text-to-speech
sub-syllable
monotonic alignment
corpus
Mel-spectrogram
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-