基于Transformer的多语种字音转换

Transformer Based Multilingual Grapheme-to-Phoneme Conversion

下载PDF

导出

摘要字音转换(Grapheme-to-Phoneme, G2P)是语音合成前端的重要部分,影响着语音合成的质量。现如今,大多数的字音转换的研究是针对于单一语种的,而在实际应用中,单一语种合成的语音远没有多语种的实用性高。因此,本文利用Transformer架构研究了在文本交叉混合条件下多语种(英、日、韩)的字音转换,使用音素错误率(Phoneme Error Rate, PER)和单词错误率(Word Error Rate, WER)作为评价指标。英文在基于美国英语的CMUDict数据集进行评估,韩语和日语则是先对SIGMORPHON 2021字音转换任务上的韩语及日语数据集进行了数据扩充,并在扩充后的数据集上进行评估。实验结果表明,在文本交叉混合条件下,基于Transformer架构的英、日、韩字音转换在音素错误率和单词错误率方面与基于Transformer架构的英、日、韩三个语言的单一语种相比都大大降低了。 Grapheme-to-Phoneme (G2P) conversion is an important part of the front end of speech synthesis, which affects the quality of speech synthesis. Nowadays, most of the research on G2P conversion is aimed at a single language, and in practical applications, single-language synthesized speech is far less practical than multilingual. Therefore, this paper uses the Transformer architecture to study the G2P conversion of multiple languages (English, Japanese, and Korean) under the condition of text crossmixing, and uses Phoneme Error Rate (PER) and Word Error Rate (WER) as evaluation indicators. English is evaluated on the CMUDict dataset based on American English, while Korean and Japanese are first expanded on the Korean and Japanese data set on the SIGMORPHON 2021 G2P conversion task, and then evaluated on the expanded data set. Experimental results show that under the condition of text crossmixing, the phoneme error rate and word error rate of English, Japanese and Korean characters based on Transformer architecture are greatly reduced compared with the single language of English, Japanese and Korean based on Transformer architecture.

作者张亚停张寒曹少中姜丹肖克晶

机构地区北京印刷学院信息工程学院

出处《计算机科学与应用》 2023年第3期510-517,共8页 Computer Science and Application

关键词字音转换 TRANSFORMER 多语种交叉混合

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

1Randa El-Bialy,Daqing Chen,Souheil Fenghour,Walid Hussein,Perry Xiao,Omar HKaram,Bo Li.Developing phoneme-based lip-reading sentences system for silent speech recognition[J].CAAI Transactions on Intelligence Technology,2023,8(1):129-138.
2杨雨昂,闫星辰,肖潇,王幸欣,陈义明.基于DenseNet的西瓜叶片病虫害识别模型[J].电脑与信息技术,2023,31(2):19-23.
3曹思亮,张贵平,何志琴,张运青,吕琼瑶.改进型MobileNetv2模型在智能垃圾分类系统的应用研究[J].现代机械,2023(2):87-91. 被引量：3
4Mohammed Hadwan,Hamzah A.Alsayadi,Salah AL-Hagree.An End-to-End Transformer-Based Automatic Speech Recognition for Qur’an Reciters[J].Computers, Materials & Continua,2023(2):3471-3487.
5徐慧智,闫卓远,常梦莹.一种结合ResNet和迁移学习的交通标志识别方法[J].重庆理工大学学报（自然科学）,2023,37(3):264-273. 被引量：5
6李念燊,韩杏倩,何金阳,黎国胜,练淼兰,罗宗华,尹时华,侯涛.基于N6-甲基腺苷相关长链非编码核糖核酸表达的喉鳞状细胞癌预后分析[J].中国耳鼻咽喉颅底外科杂志,2023,29(1):81-91. 被引量：3
7许小艳,孔宁,甸子芩,杨景晖,田云粉,苏丽娜,米弘瑛.2018-2019年昆明市住院新生儿轮状病毒感染及基因型分析[J].重庆医学,2023,52(5):657-661. 被引量：4
8王楠,王超杰,焦清局.基于EasyDL的手写甲骨文识别研究[J].电子技术与软件工程,2023(3):184-187. 被引量：1
9Tripti Choudhary,Vishal Goyal,Atul Bansal.WTASR:Wavelet Transformer for Automatic Speech Recognition of Indian Languages[J].Big Data Mining and Analytics,2023,6(1):85-91.
10Fatma Harby,Adel Thaljaoui,Durre Nayab,Suliman Aladhadh,Salim EL Khediri,Rehan Ullah Khan.Data Augmentation and Random Multi-Model Deep Learning for Data Classification[J].Computers, Materials & Continua,2023(3):5191-5207.

计算机科学与应用

2023年第3期

浏览历史

内容加载中请稍等...

基于Transformer的多语种字音转换

相关作者

相关机构

相关主题

浏览历史