基于预训练语言表示模型的汉语韵律结构预测被引量：2

Chinese Prosodic Structure Prediction Based on a Pretrained Language Representation Model

下载PDF

导出

摘要韵律结构预测作为语音合成系统中的一个关键步骤,其结果直接影响合成语音的自然度和可懂度.本文提出了一种基于预训练语言表示模型的韵律结构预测方法,以字为建模单位,在预训练语言模型的基础上对每个韵律层级设置了独立的输出层,利用韵律标注数据对预训练模型进行微调.另外在此基础上额外增加了分词任务,通过多任务学习的方法对各韵律层级间的关系及韵律与词间的关系建模,实现对输入文本各级韵律边界的同时预测.实验首先证明了多输出结构设置的合理性及使用预训练模型的有效性,并验证了分词任务的加入可以进一步提升模型性能;将最优的结果与设置的两个基线模型相比,在韵律词和韵律短语预测的F1值上与条件随机场模型相比分别有2.48%和4.50%的绝对提升,而与双向长短时记忆网络相比分别有6.2%和5.4%的绝对提升;最后实验表明该方法可以在保证预测性能的同时减少对训练数据量的需求. Prosodic structure prediction is an indispensable step in the text-to-speech system,and its results directly influence the naturalness and intelligibility of synthesized speech.In this study,a prosodic structure prediction method based on a pretrained language representation model was proposed.On the basis of the pretrained language representation model,a separate output layer was set for each prosody level,with character as the modeling unit.Then,the model was fine-tuned with prosody labeled data.To achieve the simultaneous prediction of different prosodic levels in input text,a word segmentation task was additionally introduced and the multitask learning method was used to model the relationship between the multilevel prosody and lexicon words.The experimental results prove the rationality of a multi-output structure and the effectiveness of using a pretrained language representation model and verify that adding the word segmentation task can further improve model performance.When comparing the best result to the baseline conditional random field model,significant improvements of 2.48% and 4.50% were observed for the F1 scores of prosodic word prediction and prosodic phrase prediction,respectively.By contrast,when comparing the best result to the baseline bidirectional long short-term memory model,more significant improvements of 6.2% and 5.4% were observed for the F1 scores of prosodic word prediction and prosodic phrase prediction,respectively.Finally,the experiments show that the proposed method considerably reduces the demand for training data while maintaining an excellent prediction performance.

作者张鹏远卢春晖王睿敏 Zhang Pengyuan;Lu Chunhui;Wang Ruimin(Key Laboratory of Speech Acoustics and Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China;School of Electronic,Electrical and Communication Engineering,University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院声学研究所语言声学与内容理解重点实验室中国科学院大学电子电器与通信工程学院

出处《天津大学学报（自然科学与工程技术版）》 EI CSCD 北大核心 2020年第3期265-271,共7页 Journal of Tianjin University：Science and Technology

基金国家自然科学基金资助项目(11590773,11590770) 全军共用信息系统装备预研项目(JZX2017-0994/Y306)~~

关键词韵律结构预测预训练语言表示模型多任务学习语音合成 prosodic structure prediction pretrained language representation model multitask learning speech synthesis

分类号 TN912.33 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1聂鑫,王作英.汉语语句中短语间停顿的自动预测方法[J].中文信息学报,2003,17(4):39-44. 被引量：8
2李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20

二级参考文献17

1周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
2M. Chu, Y. Qian, Locating Boundaries for Prosodic Constituents in Unrestricted Mandarin Texts[J]. Computational Linguistics and Chinese Language Processing, February 2001,6(1) :61 - 82.
3Bachenko J, Fitzpatrick E. A computational grammar of discourse-neutral prosodic phrasing in English[J]. Computational Linguistics, 1990, 16(3): 155-170.
4J. Hirschberg, P. Prieto. Training intonational phrasing rules automnatically for English and Spanish text-to-speech[J]. Speech Communication, 1996.
5G. J. Busser, W. Daelemans, Van den Bosch, A. Predicting phrase breaks with memory-based learning[A]. Proceedings 4th ISCA Tutorial and Research Workshop on Speech Synthesis[ C], Perthshire Scotland, August 29th - September 1st, 2001.
6Adam L. Berger, Stephen A. Della Pietra, Vincent J. Della Pietra. A maximum entropy approach to natural language processing[J]. Computational Linguistics 1996, 23(4): 597-618.
7Adwait Ratnaparkhi. A Maximum Entropy Part-Of-Speech Tagger[ A]. Proceedings of the Empirical Methods in Natural Language Processing Conference[C], May 17- 18, 1996.
8Hanna Wallach. Efficient training of conditional random fields[D]. Master's thesis, University of Edinburgh, 2002.
9Adwait Ratnaparkhi. (1998). Maximum Entropy Models for Natural Language Ambiguity Resolution[ D ]. Ph. D.Dissertation. University of Pennsylvania, 1998.
10应宏,蔡莲红.基于结构助词驱动的韵律短语界定的研究[J].中文信息学报,1999,13(6):41-46. 被引量：18

共引文献24

1李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
2冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
3荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
4钱揖丽,荀恩东,宋柔.基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006,32(19):23-25. 被引量：2
5董宏辉,陶建华,徐波.基于约束模型的韵律短语预测[J].中文信息学报,2007,21(1):54-59. 被引量：6
6冯哲,孙吉贵,张长胜,王岩.汉语语音合成的研究进展[J].吉林大学学报（信息科学版）,2007,25(2):198-206. 被引量：7
7陈龙,杨鸿武,蔡莲红.基于TBL算法的汉语韵律词预测[J].西北师范大学学报（自然科学版）,2008,44(1):47-51. 被引量：6
8钱揖丽,荀恩东.基于分类回归树CART的汉语韵律短语边界识别[J].计算机工程与应用,2008,44(6):169-171. 被引量：3
9邵艳秋,穗志方,韩纪庆,吴云芳.基于依存句法分析的汉语韵律层级自动预测技术研究[J].中文信息学报,2008,22(2):116-123. 被引量：6
10钱揖丽,荀恩东.基于最大熵模型的汉语短语间停顿识别[J].计算机工程与应用,2008,44(17):18-20. 被引量：1

同被引文献11

1熊艳娇.基于HMM语音识别的韵律标记[J].中国新通信,2015,17(12):98-99. 被引量：1
2赵晟,陶建华,蔡莲红.基于规则学习的韵律结构预测[J].中文信息学报,2002,16(5):30-37. 被引量：25
3帕丽旦.木合塔尔,买买提阿依甫,杨文忠,吾守尔.斯拉木.基于BiRNN的维吾尔语情感韵律短语注意力模型[J].电子科技大学学报,2019,48(1):88-95. 被引量：6
4邱泽宇,屈丹,张连海.基于WaveNet的端到端语音合成方法[J].计算机应用,2019,39(5):1325-1329. 被引量：10
5王国梁,陈梦楠,陈蕾.一种基于Tacotron 2的端到端中文语音合成方案[J].华东师范大学学报（自然科学版）,2019(4):111-119. 被引量：13
6何家勇,周阳,刘伊梅.音段与韵律对中国学习者英语可理解度的贡献——基于噪音条件下合成语音的可理解度实验[J].外语学刊,2019,0(6):71-78. 被引量：6
7刘梦媛,杨鉴.基于HMM的缅甸语语音合成系统设计与实现[J].云南大学学报（自然科学版）,2020,42(1):19-27. 被引量：9
8吴彭龙,邹霞,孙蒙,张星昱.截幅失真对低速语音编码的影响分析及改进[J].信号处理,2020,36(3):426-438. 被引量：2
9李燕萍,曹盼,石杨,张燕,钱博.非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换[J].复旦学报（自然科学版）,2020,59(3):322-329. 被引量：10
10都格草,才让卓玛,南措吉,算太本.基于神经网络的藏语语音合成[J].中文信息学报,2019,33(2):75-80. 被引量：11

引证文献2

1魏伟华.语音合成技术综述及研究现状[J].软件,2020,41(12):214-217. 被引量：8
2李培英,杨鉴.基于BERT-CRF模型的缅甸语韵律单元边界预测[J].计算机科学与应用,2021,11(3):505-514. 被引量：1

二级引证文献9

1刘丹丹.普通话语音研究综述与前瞻[J].语言文字应用,2021(2):127-136. 被引量：1
2姑丽斯坦·奥布力喀斯木,帕力旦·吐尔逊,艾斯卡尔·艾木都拉.不同粒度嵌入单元的端到端语音合成技术研究[J].现代计算机,2021,27(24):14-20. 被引量：1
3贺嘉,张琳,何道良.AI智慧云呼系统建设[J].江西通信科技,2022(2):1-4.
4翟乃强.语音合成技术在听力考试系统设计中的应用[J].青岛远洋船员职业学院学报,2022,43(3):78-82. 被引量：1
5王渭刚.基于TTS技术的智能化英语自动翻译系统[J].信息技术,2023,47(3):117-121. 被引量：2
6陈志业,张智骞,王兵,谢元坤.AI语音合成技术的应用与展望[J].影视制作,2023,29(3):51-55. 被引量：5
7张佳琳,买日旦·吾守尔,古兰拜尔·吐尔洪.低资源条件下的语音合成方法综述[J].计算机工程与应用,2023,59(15):1-16. 被引量：2
8王诗怡,贺萍.复杂数据上的实体识别综述[J].计算机科学与应用,2021,11(5):1588-1597.
9谢煜颖.基于深度学习的视频语音提取文本系统设计与实现[J].软件工程与应用,2021,10(4):528-541. 被引量：2

1张丽.巧借文本,发展想象,训练语言——统编教材二年级上册《雾在哪里》文本解读与教学设计[J].小学语文教师,2019,0(11):38-41.
2钱树凯.用好支架练语言——以二年级下册《枫树上的喜鹊》的教学为例[J].小学教学参考,2020,0(1):68-69. 被引量：1
3罗相和.《烛之武退秦师》的语言艺术探析[J].中学语文,2019,0(33):18-19.
4张育新.小学低年级说话训练初探[J].教育研究与评论,2019,0(5):105-108.
5高晓雅,李逸薇,张璐,李寿山.基于多任务学习的正逆向情绪分值回归方法[J].郑州大学学报（理学版）,2020,52(1):60-65. 被引量：4
6郭腾翔,蔡俊勇,魏骏,刘湘萍.矿山地质地面沉降与地下水资源污染的关系建模研究[J].环境科学与管理,2019,44(10):34-39. 被引量：3
7李华英.背诵输入在英语课堂教学中的实践[J].女报,2019(10):15-15.
8范晓婷,阿依仙木古丽.吾甫尔.汉语母语者维吾尔语韵律边界时长特征的二语习得研究[J].中国多媒体与网络教学学报（电子版）,2019,0(3S):34-36.
9朱艳丽,杨小平,王良,张志宇.TransRD：一种不对等特征的知识图谱嵌入表示模型[J].中文信息学报,2019,33(11):73-82. 被引量：9
10张萌.视觉传播时代虚拟偶像与粉丝的互动关系[J].青年记者,2019(36):38-39. 被引量：14

天津大学学报（自然科学与工程技术版）

2020年第3期

浏览历史

内容加载中请稍等...

基于预训练语言表示模型的汉语韵律结构预测被引量：2

参考文献2

二级参考文献17

共引文献24

同被引文献11

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于预训练语言表示模型的汉语韵律结构预测 被引量：2

参考文献2

二级参考文献17

共引文献24

同被引文献11

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于预训练语言表示模型的汉语韵律结构预测被引量：2