面向藏语语音合成的语音基元自动标注方法被引量：6

Speech unit segmentation for Tibetan speech synthesis

下载PDF

导出

摘要在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。 This paper introduces a Deterministic Annealing Expectation Maximum（DAEM）algorithm into the HMM-based Tibetan speech synthesis to label the time boundary of speech synthesis unit for non-labeled training speech corpus automatically. The initial and the final are used as the speech synthesis units. The DAEM algorithm is used for determining the optimal parameters of the embedded re-evaluation during the model training. The boundaries of speech synthesis units are obtained by a force alignment in acoustic model training of speech synthesis unit. Tests show that the unit boundary obtained by the proposed method is close to the manually labeled boundary. Subjective evaluation on quality of synthesized speech shows that the synthesized Tibetan speech is also similar to the synthesized speech with manually labeled speech corpus.Therefore, proposed method can be used for training acoustic modes of Tibetan speech synthesis with non-labeled training speech corpus.

作者徐世鹏杨鸿武王海燕

机构地区西北师范大学物理与电子工程学院

出处《计算机工程与应用》 CSCD 北大核心 2015年第6期199-203,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.61263036) 甘肃省杰出青年基金(No.1210RJDA007) 甘肃省自然科学基金(No.1107RJZA112 No.1208RJYA078)

关键词藏语语音合成确定性退火期望值最大化(DAEM)算法自动标注时间标注 Tibetan speech synthesis Deterministic Annealing Expectation Maximum（DAEM）algorithm automatically label time label

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1Hunt A J,Black A W.Unit selection in a concatenative speech synthesis system using a large speech database[C]//Acoustics,Speech,and Signal Processing,ICASSP-96,1996:373-376.
2Zen H,Tokuda K,Black A W.Statistical parametric speech synthesis[J].Speech Communication,2009,51(11):1039-1064.
3Yamagishi J,Onishi K,Masuko T,et al.Modeling of various speaking styles and emotions for HMM-based speech synthesis[C]//interspeech,2003:2461-2464.
4Tamura M,Masuko T,Tokuda K,et al.Adaptation of pitch and spectrum for HMM-based speech synthesis using MLLR[C]//2001 IEEE International Conference on Acoustics,Speech,and Signal Processing,2001:805-808.
5Zen H,Toda T,Nakamura M,et al.Details of the Nitech HMM-based speech synthesis system for the Blizzard challenge 2005[J].IEICE Transactions on Information and Systems,2007,90(1):325-333.
6Dines J,Sridharan S.Trainable speech synthesis with trended hidden Markov models[C]//2001 IEEE International Conference on Acoustics,Speech,and Signal Processing,2001:833-836.
7Shannon M,Zen H,Byrne W.Autoregressive models for statistical parametric speech synthesis[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(3):587-597.
8康世胤,段全盛,双志伟,等.HMM语音合成中基频清浊音优化算法研究[C]//全国人机语音通讯学术会议论文集.兰州:兰州大学出版社,2009:317-321.
9王永鑫,贾珈,张雨辰,蔡莲红.基于HMM语音合成的语调控制[J].清华大学学报（自然科学版）,2013,53(6):781-786. 被引量：5
10王海燕,杨鸿武,甘振业,等.基于说话人自适应训练的汉藏双语语音合成[C]//第十二届全国人机语音通讯学术会议(NCMMSC’2013)论文集,2013.

二级参考文献34

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：19
2高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
3王丽娟,曹志刚.基于HMM模型的语音单元边界的自动切分[J].数据采集与处理,2005,20(4):381-384. 被引量：4
4陈丽娜,祁坤钰,贾彦民,吴健,康丽.藏文拉丁转写的研究与实现[J].计算机工程与设计,2006,27(1):15-17. 被引量：12
5江荻.藏文的拉丁字母转写方法——兼论藏文语料的计算机转写处理[J].民族语文,2006(1):45-53. 被引量：11
6王永生,柴佩琪,宣国荣.英语语音合成中基于DFGA的字音转换算法[J].计算机工程与应用,2006,42(13):158-161. 被引量：3
7Van Santen J,Sproat R W,Hirschberg J.语音合成[M].蔡莲红,杨鸿武,吴志勇,译.北京:机械工业出版社,2005:46-47.
8Wells J.SAMPA computer readable phonetic alphabet[M]//Gibbon D, Moore R, Winski R.Handbook of Standards and Resources for Spoken Language Systems.Berlin and New York: Mouton de Gruyter, 1997.
9Zhang Jialu.A SAMPA system for Putonghua(Standard Chinese ) [C]// Proc Oriental COCOSDA'99,Academia Sinica, 1999 : 89-92.
10Tseng C Y, Chou F C.Machine readable phonetic transcription systems for Chinese dialects spoken in Taiwan[C]//Proc EALREW, Tskuba, Japan, 1998.

共引文献11

1徐英进,王永鑫,蔡莲红.汉语语音合成中基于语境特征的清浊音时长调整[J].中国科技论文,2012,7(10):783-786.
2孟凡博,吴志勇,贾珈,蔡莲红.汉语重音的凸显度分析与合成[J].声学学报,2015,40(1):1-11. 被引量：1
3赵尔平,王聪华,党红恩,雒伟群.藏语孤立词语音识别技术研究[J].西北师范大学学报（自然科学版）,2015,51(5):50-54. 被引量：6
4陈小莹,艾金勇.安多方言—夏河话SAMPA_AT设计[J].智能计算机与应用,2016,6(1):24-25. 被引量：2
5刘学杰,赵晖.改进参数控制的可视语音合成方法[J].计算机工程与设计,2017,38(4):989-995.
6黄晓辉,李京,马睿.藏语口语语音语料库的设计与研究[J].计算机工程与应用,2018,54(13):231-235. 被引量：8
7李奕江,张金萍,李允公.基于VMD-HMM的滚动轴承磨损状态识别[J].振动与冲击,2018,37(21):61-67. 被引量：28
8刘梦媛,杨鉴.基于HMM的缅甸语语音合成系统设计与实现[J].云南大学学报（自然科学版）,2020,42(1):19-27. 被引量：8
9王咿卜,李建文.函数拟合实现语音演唱[J].华东师范大学学报（自然科学版）,2021(1):152-164. 被引量：3
10杨佳睿,冯早,朱雪峰.变工况下管道堵塞识别的声纹模型研究[J].机械科学与技术,2023,42(6):914-922.

同被引文献38

1根呷翁姆.藏语的方言分类及其特点[J].中国语言学研究,2022(2):247-261. 被引量：1
2根呷翁姆.藏传佛教对藏语的影响[J].西南民族大学学报（人文社会科学版）,2010,31(5):23-26. 被引量：1
3格桑居冕.藏语巴塘话的语音分析[J].民族语文,1985(2):16-27. 被引量：16
4胡坦.藏语(拉萨话)声调研究[J].民族语文,1980(1):22-36. 被引量：47
5马戎,潘乃谷.解放以来我国藏族人口的数量变化及其地理分布[J].中国人口科学,1988(2):2-10. 被引量：4
6刘宁生.语言关于时间的认知特点与第二语言习得[J].汉语学习,1993(5):39-41. 被引量：21
7邢海宁.藏语书面语的天峻读音及其口语之差异[J].青海民族研究,1990,1(1):66-71. 被引量：1
8徐世璇.汉藏语言的语音屈折构词现象[J].民族语文,1996(3):31-40. 被引量：23
9郑锦全.语言学——结合人文关怀与科技应用的学科[J].暨南学报（哲学社会科学版）,2005,27(5):94-98. 被引量：6
10张维佳.建立汉语方言地理底图和坐标编号系统的设想[J].语言科学,2006,5(3):72-79. 被引量：6

引证文献6

1刘颖,赵耀龙,杨锦,邓戈,欧珠.藏语方言时空数据共享服务平台的设计与实现[J].热带地貌,2020(1):53-60.
2刘芳.藏语语音合成系统的关键技术研究[J].西藏大学学报（社会科学版）,2016,31(5):87-91.
3拉巴顿珠,欧珠,祖漪清,裴春宝.藏语同形异音词的消歧方法研究[J].中文信息学报,2018,32(7):58-66. 被引量：3
4郝东亮,杨鸿武,张策,张帅,郭立钊,杨静波.面向汉语统计参数语音合成的标注生成方法[J].计算机工程与应用,2016,52(19):146-153. 被引量：1
5何俊,张彩庆,张云飞,张德海,李小珍.基于双层特征的彝语数据情感自动标注方法[J].计算机应用,2020,40(10):2850-2855. 被引量：1
6梁青青,周小燕,赵春艳.一个面向藏族学生双语教学的汉藏语料库建设[J].兰州文理学院学报（自然科学版）,2023,37(6):36-40.

二级引证文献5

1祖漪清.基于智能语音系统的声调研究[J].中国语音学报,2019(2):54-62.
2黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1
3沈楠.空情态势报知训练器设计与实现[J].火力与指挥控制,2021,46(5):127-131.
4祖漪清,陆晨,欧珠,朱荣华,刘晨宁,邵鹏飞,录布塔,张校,胡国平.连续话语中的基本语言运行单元SE——来自藏语拉萨话连读变调的实验证据[J].当代语言学,2022,24(4):515-532.
5董蔚楠.基于FSVM算法的多模态情感数据自动采集方法[J].自动化技术与应用,2023,42(12):103-107.

1唐英干,赵立兴,关新平.基于混合模型和DAEM算法的自适应图像分割[J].仪器仪表学报,2005,26(6):653-657. 被引量：3
2连玮.快速的自举鲁棒点匹配算法[J].长治学院学报,2013,30(2):1-6.
3王海燕,杨鸿武,甘振业,裴东.基于说话人自适应训练的汉藏双语语音合成[J].清华大学学报（自然科学版）,2013,53(6):776-780. 被引量：5
4曲珍,春燕.藏语语音合成中语料数据标注规则的设计[J].西藏大学学报（社会科学版）,2012,27(2):62-66. 被引量：4
5才让卓玛,李永明,才智杰.藏语语音合成单元选择[J].软件学报,2015,26(6):1409-1420. 被引量：5
6江荻,董颖红.藏文信息处理属性统计研究[J].中文信息学报,1995,9(2):37-44. 被引量：19
7张金溪,徐慧,李照耀.藏语语音处理中对MFCC参数提取的研究[J].无线互联科技,2012,9(11):141-141. 被引量：1
8李永宏,于洪志.安多藏语语音合成语料库的设计[J].西北民族大学学报（自然科学版）,2006,27(1):36-39. 被引量：16
9李勇,于洪志,达哇彭措.基于关联规则的藏语语音韵律参数提取[J].微计算机信息,2009(6):255-257. 被引量：3
10杨博,贾银锁,李永宏,于洪志.韵律控制技术及其在藏语TTS中的应用研究[J].西北民族大学学报（自然科学版）,2005,26(1):66-71.

计算机工程与应用

2015年第6期

浏览历史

内容加载中请稍等...

面向藏语语音合成的语音基元自动标注方法被引量：6

参考文献17

二级参考文献34

共引文献11

同被引文献38

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向藏语语音合成的语音基元自动标注方法 被引量：6

参考文献17

二级参考文献34

共引文献11

同被引文献38

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向藏语语音合成的语音基元自动标注方法被引量：6