端到端闽南语合成系统的设计与实现被引量：3

Design and implementation of end-to-end synthetic system for Hokkien

下载PDF

导出

摘要为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特色的闽南语词库和音素体系;模型框架方面,在Tacotron和Tacotron2以及结合了两者不同模块的融合框架上进行实验对比.在厦门大学自主采集的厦门口音闽南语数据集的基础上,使用闽南语识别模型对语音数据进行解码得到对应的带有标点符号的音素序列,通过专业定制的词典建立音素标注体系,进行多组实验,比较采样率、建模方式和模型结构对合成音质以及稳定性的影响,通过梅尔谱和编码解码对齐图等评测标准,得到了三者的最佳搭配方案. To better study the application of speech synthesis in Hokkien,we have established the database and verified that Tacotron2 is an effective speech synthesis model.For database,the establishment of a comprehensive and localized Hokkien vocabulary and phoneme system is adopted;for the model,in the model architecture of Tacotron and Tacotron2,the integration and optimization of the two models are explored,and the attention mechanism and other modules are optimized.On the data set of Xiamen pronunciation of Hokkien,the corresponding phoneme sequences with punctuation marks are decoded by Hokkien recognition model.A post-phoneme annotation system is established through a specially customized dictionary.A series of experiments are carried out to compare effects of sampling rate,modeling method and model structure on the synthesized phoneme quality and stability.Through Mel spectrum and alignment map of decoding and encoding,the best configuration is obtained.

作者颜世江陈越颜婉玲许彬彬李琳洪青阳 YAN Shijiang;CHEN Yue;YAN Wanling;XU Binbin;LI Lin;HONG Qingyang(School of Informatics,Xiamen University,Xiamen 361005,China;School of Humanities,Xiamen University,Xiamen 361005,China;School of Electronic Science and Engineering,Xiamen University,Xiamen 361005,China)

机构地区厦门大学信息学院厦门大学人文学院厦门大学电子与科学技术学院

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2020年第6期988-994,共7页 Journal of Xiamen University：Natural Science

基金国家自然科学基金(61876160)。

关键词语音合成端到端模型深度学习闽南语 speech synthesis end-to-end model deep learning Hokkien

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1王兵,苏恩泽.天津话语音合成系统[J].计算技术与自动化,1995,14(4):37-39. 被引量：4
2贾珈,蔡莲红,李明,张帅.汉语普通话与沈阳方言转换的研究[J].清华大学学报（自然科学版）,2009(S1):1309-1315. 被引量：7

二级参考文献8

1黄德智,蔡莲红.一种面向声音变换的参数化模型[J].声学学报,2006,31(6):542-548. 被引量：2
2曾志雄.一种有效的基于划分和层次的混合聚类算法[J].计算机应用,2007,27(7):1692-1694. 被引量：15
3Hideki Banno,,Hiroaki Hata,Masanori Morise,et al.Implementation of realtime STRAIGHT speech manipulationsystem:Report on its first implementation. AcousticScience and Technology . 2007
4Hideki Kawahara,Alain de Cheveigne,Hideki Banno,et al.Nearly defect-free F0 trajectory extraction for expressivespeech modifications based on STRAIGHT. ProcInterspeech2005 . 2005
5Tseng C.The syllable duration varies a lot with differenttones. Speech Communication . 2005
6Han J,Kamber M.The concept and Technology of DataMining. . 2001
7Mohri M,Pereira F,Riley M.Weighted finite-state transducers in speechrecognition. Computer Speech and Language . 2002
8李净,郑方,张继勇,吴文虎.汉语连续语音识别中上下文相关的声韵母建模[J].清华大学学报（自然科学版）,2004,44(1):61-64. 被引量：18

共引文献8

1崔平,王韫佳.抚顺话“上声+阴平”变调的声学和知觉研究[J].中国语音学报,2019(1):88-97. 被引量：1
2彭必雨.美国皮革化学家协会第102届年会论文综述[J].中国皮革,2006,35(17):9-12. 被引量：2
3胡什乃再尔·阿尔斯兰,古丽娜尔·艾力,艾斯卡尔·艾木都拉.基于自动机的喀什方言音位变化规则研究[J].计算机工程,2012,38(20):176-178.
4胡扬,年晓红.一种汉语方言编码与转换机制的研究[J].计算机应用研究,2013,30(1):206-210.
5杨鸿武,王红丽,裴东,郭威彤.基于FDA的基频建模[J].西北师范大学学报（自然科学版）,2013,49(2):44-48.
6郭威彤,杨鸿武,宋继华,顾香,甘振业.面向方言语音合成的文本分析研究[J].计算机工程,2015,41(9):184-189. 被引量：3
7段凯宇,俞一彪,石汝杰.基于基音同步帧叠接的吴语语音合成[J].通信技术,2002,35(3X):1-3. 被引量：3
8欧阳国亮.辽宁方言六十年研究概述[J].华中师范大学研究生学报,2010(4):50-52. 被引量：6

同被引文献21

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：53
2帕丽旦.木合塔尔,买买提阿依甫,杨文忠,吾守尔.斯拉木.基于BiRNN的维吾尔语情感韵律短语注意力模型[J].电子科技大学学报,2019,48(1):88-95. 被引量：6
3王国梁,陈梦楠,陈蕾.一种基于Tacotron 2的端到端中文语音合成方案[J].华东师范大学学报（自然科学版）,2019(4):111-119. 被引量：13
4热衣扎·哈那提,努尔布力.语音合成技术研究现状与发展趋势的计量分析[J].现代电子技术,2019,42(21):116-119. 被引量：5
5刘梦媛,杨鉴.基于HMM的缅甸语语音合成系统设计与实现[J].云南大学学报（自然科学版）,2020,42(1):19-27. 被引量：8
6龚永罡,吴萌,廉小亲,裴晨晨.基于Seq2Seq与Bi-LSTM的中文文本自动校对模型[J].电子技术应用,2020,46(3):42-46. 被引量：15
7古丽尼格尔·阿不都外力,买合木提·买买提,吐尔根·依布拉音,早克热·卡德尔,西热艾力·海如拉,王路路.字符序列标注的维吾尔语词干提取方法[J].现代电子技术,2020,43(12):151-154. 被引量：5
8陈小东,宋文爱,刘晓峰.基于LPCNet的语音合成方法研究[J].计算机与数字工程,2020,48(5):1143-1147. 被引量：3
9严佩敏,唐婉琪.基于改进BERT的中文文本分类[J].工业控制计算机,2020,33(7):108-110. 被引量：11
10郑宗生,刘敏,胡晨雨,傅泽平,卢鹏,姜晓轶.基于Seq2Seq和Attention的时序卫星云图台风等级预测[J].遥感信息,2020,35(4):16-22. 被引量：6

引证文献3

1杜睿山,陈思路,李阳,张可佳,杨丽波,解红涛,宋欣雨.基于Tacotron模型的油田射孔语音合成方案[J].系统仿真技术,2020,16(4):231-234.
2姑丽斯坦·奥布力喀斯木,帕力旦·吐尔逊,艾斯卡尔·艾木都拉.不同粒度嵌入单元的端到端语音合成技术研究[J].现代计算机,2021,27(24):14-20. 被引量：1
3张冠萍.基于语音合成的英语机器翻译机器人设计[J].自动化与仪器仪表,2023(2):247-252. 被引量：1

二级引证文献2

1涂琼引,成南.基于语音识别的英语翻译终端设计[J].自动化与仪器仪表,2023(1):251-256.
2付曼.基于语音信号的跨语种交互翻译机器人语义纠错方法[J].信息与电脑,2024,36(5):31-33.

1梁治明.关注随机变量分布点的变化[J].福建中学数学,2020(11):47-49.
2黄珠芹.基于逆向工程的机械产品造型设计方法探析[J].装备维修技术,2020(9):0118-0118.
3麻珂欣,魏笔凡,马杰,刘均,黄毅,胡珉,冯俊兰.知识主题间先序关系挖掘[J].大数据,2020,6(6):26-39.
4陈冬梅.人工智能时代深度合成技术应用的风险及治理[J].辽宁行政学院学报,2020(5):76-79. 被引量：1
5孟小佳.深度解读语音研究背后的理论体系——评《词库音系学中的声调》[J].语文建设,2020(23).
6余杰玲.小学英语自然拼读法在单词教学中的运用[J].中学生作文指导,2020(31):0104-0104.
7徐业龙,侯林.韩信对齐兵学的传承与弘扬[J].滨州学院学报,2020,36(3):15-19.
8苟梦颖,张韬.金融研究的新范式:计算实验金融的发展及应用[J].金融市场研究,2020,80(10):51-59. 被引量：2
9蔡彪,陈润.基于标签辅助边优化的推荐算法[J].重庆大学学报,2020,43(11):52-62. 被引量：1
10张晓宇,强彦,Zia Ur Rehman.基于双路径网络的端到端肺结节检测模型[J].计算机工程与设计,2020,41(12):3503-3509. 被引量：1

厦门大学学报（自然科学版）

2020年第6期

浏览历史

内容加载中请稍等...

端到端闽南语合成系统的设计与实现被引量：3

参考文献2

二级参考文献8

共引文献8

同被引文献21

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

端到端闽南语合成系统的设计与实现 被引量：3

参考文献2

二级参考文献8

共引文献8

同被引文献21

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

端到端闽南语合成系统的设计与实现被引量：3