期刊文献+
共找到1,187篇文章
< 1 2 60 >
每页显示 20 50 100
SPEECH ENHANCEMENT USING AN MMSE SHORT TIME DCT COEFFICIENTS ESTIMATOR WITH SUPERGAUSSIAN SPEECH MODELING 被引量:4
1
作者 Zou Xia Zhang Xiongwei 《Journal of Electronics(China)》 2007年第3期332-337,共6页
In this paper,two speech enhancement systems with supergaussian speech modeling are presented. The clean speech components are estimated by Minimum-Mean-Square-Error (MMSE) es-timator under the assumption that the DCT... In this paper,two speech enhancement systems with supergaussian speech modeling are presented. The clean speech components are estimated by Minimum-Mean-Square-Error (MMSE) es-timator under the assumption that the DCT coefficients of clean speech are modeled by a Laplacian or a Gamma distribution and the DCT coefficients of the noise are Gaussian distributed. Then,MMSE estimators under speech presence uncertainty are derived. Furthermore,the proper estimators of the speech statistical parameters are proposed. The speech Laplacian factor is estimated by a new deci-sion-directed method. The simulation results show that the proposed algorithm yields less residual noise and better speech quality than the Gaussian based speech enhancement algorithms proposed in recent years. 展开更多
关键词 语音增强 语音模型 MMSE DCT系数估计器 超高斯信源
下载PDF
Improved hidden Markov model for speech recognition and POS tagging 被引量:4
2
作者 袁里驰 《Journal of Central South University》 SCIE EI CAS 2012年第2期511-516,共6页
In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language proc... In order to overcome defects of the classical hidden Markov model (HMM), Markov family model (MFM), a new statistical model was proposed. Markov family model was applied to speech recognition and natural language processing. The speaker independently continuous speech recognition experiments and the part-of-speech tagging experiments show that Markov family model has higher performance than hidden Markov model. The precision is enhanced from 94.642% to 96.214% in the part-of-speech tagging experiments, and the work rate is reduced by 11.9% in the speech recognition experiments with respect to HMM baseline system. 展开更多
关键词 隐马尔可夫模型 连续语音识别 词性标注 自然语言处理 统计模型 基线系统 HMM 实验
下载PDF
Prosodic Modification of Chinese Speech Based on Sinusoidal Model 被引量:1
3
作者 Jiang-yang Zhou Fang-jing Zheng +1 位作者 Quan Sha Pei-gi Chai 《Advances in Manufacturing》 SCIE CAS 2000年第4期299-303,共5页
Modification on time scale and pitch scale of Chinese syllable based on sinusoidal model is presented in this paper. Firstly, the short term speech is decomposed into a sum of sinusoidal waves of different magnitud... Modification on time scale and pitch scale of Chinese syllable based on sinusoidal model is presented in this paper. Firstly, the short term speech is decomposed into a sum of sinusoidal waves of different magnitudes and phases. Then vocal tract system and excitation are obtained using a homomophic technique. Lastly, the speech with desired time scale and pitch scale is obtained through the change of frequency and phase of excitation while the parameters of vocal tract system are changed accordingly. The results show that the adjustable scale of pitch and time scale is big using this algorithm and it is suitable to be used in analysis and synthesis of Chinese speech. 展开更多
关键词 Chinese speech sinusoidal model pitch scale time scale prosodic modificatp
下载PDF
Application of Cochlear Model in Speech Analysis/Synthesis Using Sinusoidal Representation 被引量:1
4
作者 Yuan Jingxian Wan Wanggen Yu Xiaoqing (School of Communication & Information Engineering, Shanghai University) 《Advances in Manufacturing》 SCIE CAS 1999年第1期47-52,共6页
A sinusoidal representation of speech and a cochlear model are used to extract speech parameters in this paper, and a speech analysis/synthesis system controlled by the auditory spectrum is developed with the model. T... A sinusoidal representation of speech and a cochlear model are used to extract speech parameters in this paper, and a speech analysis/synthesis system controlled by the auditory spectrum is developed with the model. The computer simulation shows that speech can be synthesized with only 12 parameters per frame on the average. The method has the advantages of few parameters, low complexity and high performance of speech representation. The synthetic speech has high intelligibility. 展开更多
关键词 speech analysis/synthesis sinusoidal representation cochlear model auditory spectrum
下载PDF
Pitch models of Mandarin text-to-speech
5
作者 邵艳秋 穗志方 韩纪庆 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2009年第2期179-184,共6页
The function of prosody model will directly affect the naturalness of synthesized speech.Aimed at the difficulty in generating the pitch contour in prosody model,two pitch models namely corpus-based pitch model and pi... The function of prosody model will directly affect the naturalness of synthesized speech.Aimed at the difficulty in generating the pitch contour in prosody model,two pitch models namely corpus-based pitch model and pitch pattern model are deeply studied in this paper.Key problems in the corpus-based model are calculation of the distance and searching of the optimal path with dynamic programming algorithm.For the pitch pattern model,parameters such as pitch pattern,pitch average and pitch range are used to describe the pitch contour,and six pitch patterns are presented.For the generation of pitch contour,the pitch pattern model is more flexible than the corpus-based model.Both of the two models are linked to the real TTS system,and the MOS results of synthesized Mandarin speech show that the pitch pattern model is better than the corpus-based pitch model. 展开更多
关键词 文语转换 沥青 普通话 韵律模型 动态规划算法 合成语音 TTS系统 语料库
下载PDF
ARMA Modelling for Whispered Speech
6
作者 栗学丽 周卫东 《Journal of Measurement Science and Instrumentation》 CAS 2010年第3期300-303,共4页
The Autoregressive Moving Average(ARMA)model for whispered speech is proposed.Compared with normal speech,whispered speech has no fundamental frequency because of the glottis being semi-opened and turbulent flow being... The Autoregressive Moving Average(ARMA)model for whispered speech is proposed.Compared with normal speech,whispered speech has no fundamental frequency because of the glottis being semi-opened and turbulent flow being created,and formant shifting exists in the lower frequency region due to the narrowing of the tract in the false vocal fold regions and weak acoustic coupling with the subglottal system.Analysis shows that the effect of the subglottal system is to introduce additional pole-zero pairs into the vocal tract transfer function.Theoretically,the method based on an ARMA process is superior to that based on an AR process in the spectral analysis of the whispered speech.Two methods,the least squared modified Yule-Walker likelihood estimate(LSMY)algorithm and the Frequency-Domain Steiglitz-Mcbride(FDSM)algorithm,are applied to the ARMA model for the whispered speech.The performance evaluation shows that the ARMA model is much more appropriate for representing the whispered speech than the AR model,and the FDSM algorithm provides a more accurate estimation of the whispered speech spectral envelope than the LSMY algorithm with higher computational complexity. 展开更多
关键词 ARMA模型 耳语音 ARMA过程 FDSM 语音模型 移动平均 传递函数 频谱分析
下载PDF
Investigation of Automatic Speech Recognition Systems via the Multilingual Deep Neural Network Modeling Methods for a Very Low-Resource Language, Chaha 被引量:1
7
作者 Tessfu Geteye Fantaye Junqing Yu Tulu Tilahun Hailu 《Journal of Signal and Information Processing》 2020年第1期1-21,共21页
Automatic speech recognition (ASR) is vital for very low-resource languages for mitigating the extinction trouble. Chaha is one of the low-resource languages, which suffers from the problem of resource insufficiency a... Automatic speech recognition (ASR) is vital for very low-resource languages for mitigating the extinction trouble. Chaha is one of the low-resource languages, which suffers from the problem of resource insufficiency and some of its phonological, morphological, and orthographic features challenge the development and initiatives in the area of ASR. By considering these challenges, this study is the first endeavor, which analyzed the characteristics of the language, prepared speech corpus, and developed different ASR systems. A small 3-hour read speech corpus was prepared and transcribed. Different basic and rounded phone unit-based speech recognizers were explored using multilingual deep neural network (DNN) modeling methods. The experimental results demonstrated that all the basic phone and rounded phone unit-based multilingual models outperformed the corresponding unilingual models with the relative performance improvements of 5.47% to 19.87% and 5.74% to 16.77%, respectively. The rounded phone unit-based multilingual models outperformed the equivalent basic phone unit-based models with relative performance improvements of 0.95% to 4.98%. Overall, we discovered that multilingual DNN modeling methods are profoundly effective to develop Chaha speech recognizers. Both the basic and rounded phone acoustic units are convenient to build Chaha ASR system. However, the rounded phone unit-based models are superior in performance and faster in recognition speed over the corresponding basic phone unit-based models. Hence, the rounded phone units are the most suitable acoustic units to develop Chaha ASR systems. 展开更多
关键词 Automatic speech Recognition MULTILINGUAL DNN modeling Methods Basic PHONE ACOUSTIC UNITS Rounded PHONE ACOUSTIC UNITS Chaha
下载PDF
Hidden Markov Models for Automatic Speech Recognition
8
作者 Mbarki Aymen Ammari Abdelaziz Sghaier Halim Hassen Maaref 《Journal of Mechanics Engineering and Automation》 2011年第1期68-73,共6页
关键词 隐马尔可夫模型 自动语音识别 语音识别系统 HMM 语言结构 语料统计 统计方法 扬声器
下载PDF
Phoneme Sequence Modeling in the Context of Speech Signal Recognition in Language “Baoule”
9
作者 Hyacinthe Konan Etienne Soro +2 位作者 Olivier Asseu Bi Tra Goore Raymond Gbegbe 《Engineering(科研)》 2016年第9期597-617,共22页
This paper presents the recognition of “Baoule” spoken sentences, a language of C?te d’Ivoire. Several formalisms allow the modelling of an automatic speech recognition system. The one we used to realize our system... This paper presents the recognition of “Baoule” spoken sentences, a language of C?te d’Ivoire. Several formalisms allow the modelling of an automatic speech recognition system. The one we used to realize our system is based on Hidden Markov Models (HMM) discreet. Our goal in this article is to present a system for the recognition of the Baoule word. We present three classical problems and develop different algorithms able to resolve them. We then execute these algorithms with concrete examples. 展开更多
关键词 HMM MATLAB Language model Acoustic model Recognition Automatic speech
下载PDF
自动语音识别模型压缩算法综述
10
作者 时小虎 袁宇平 +2 位作者 吕贵林 常志勇 邹元君 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期122-131,共10页
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性... 随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案. 展开更多
关键词 语音识别 模型压缩 知识蒸馏 模型量化 低秩分解 网络剪枝 参数共享
下载PDF
基于小波散射变换和MFCC的双特征语音情感识别融合算法
11
作者 应娜 吴顺朋 +1 位作者 杨萌 邹雨鉴 《电信科学》 北大核心 2024年第5期62-72,共11页
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首... 为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首先获取语音信号的小波散射特征和梅尔频率倒谱系数的相关特征;然后按尺度维度扩展小波散射特征,利用支持向量机得到情感识别的后验概率并获得排列熵,并使用排列熵对后验概率进行加权;最后采用一种偏差调整规则进一步融合MFCC的相关特征的识别结果。实验结果表明,在EMODB、RAVDESS和eNTERFACE05数据集上,与传统的基于小波散射系数的语音情感识别方法相比,该算法将ACC分别提高了2.82%、2.85%和5.92%,将UAR分别提升了3.40%、2.87%和5.80%,IEMOCAP上提高了6.89%。 展开更多
关键词 语音情感识别 小波散射变换 排列熵 MFCC 模型融合
下载PDF
仪式-语类模式下中国外交警告言语行为研究
12
作者 刘风光 柴宜林 《东北亚外语研究》 2024年第3期19-38,共20页
警告言语行为是外交话语中常见的仪式化语用现象。本研究将外交警告言语行为视作目标明确且结构相对稳定的语类,融合仪式理论和语类结构潜势理论,探究仪式化语境配置影响下中国外交警告言语行为的仪式-语类语言形式、语用策略和结构潜势... 警告言语行为是外交话语中常见的仪式化语用现象。本研究将外交警告言语行为视作目标明确且结构相对稳定的语类,融合仪式理论和语类结构潜势理论,探究仪式化语境配置影响下中国外交警告言语行为的仪式-语类语言形式、语用策略和结构潜势,进而考察外交发言人语言选择背后的道德秩序。研究发现,在语言形式层面,外交发言人通常采用指示视角类仪式框架指示表达及构式实施警告;在语用策略层面,直接性程度较低的非规约性间接警告出现频率最高;在结构潜势层面,外交警告言语行为的宏观话语模式为(ME)■FA,其中评价、将来行动为必要成分。三个层面的警告实现方式体现出坚持独立自主和坚持和平发展这两个主要道德秩序。本研究验证了仪式理论和语类理论融合框架对外交话语分析的可行性。对外交警告仪式-语类特征的考察有利于加深对政治外交仪式特征的理解,为其他机构性话语研究提供启示。 展开更多
关键词 警告言语行为 仪式-语类模式 中国外交话语 宏观话语 语境配置
下载PDF
基于层次化Conformer的语音合成
13
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 CONFORMER
下载PDF
网络暴力言论检测的技术和实践 被引量:1
14
作者 张冬瑜 卢俊宇 +1 位作者 闵昶榮 林鸿飞 《语言战略研究》 北大核心 2024年第1期64-75,共12页
暴力言论是网络语言治理的重点,由于社交媒体信息量巨大,运用自然语言处理等人工智能技术对网络进行自动检测是及时阻止网络暴力言论传播扩散的必然要求。由于网络暴力言论表达具有隐匿性和多样性,目前存在缺乏细粒度的中文暴力言论语料... 暴力言论是网络语言治理的重点,由于社交媒体信息量巨大,运用自然语言处理等人工智能技术对网络进行自动检测是及时阻止网络暴力言论传播扩散的必然要求。由于网络暴力言论表达具有隐匿性和多样性,目前存在缺乏细粒度的中文暴力言论语料库,以及对于采取隐式表达的暴力言论检测效果不理想的问题。因此,本文构建了一个大规模的中文暴力言论语料库,并研制了基于双重对比学习和基于情绪辅助的多标签自训练暴力言论检测方法,并在多种数据集上验证了其有效性和先进性。在大语言模型时代,将其与背景知识相结合可以更准确地检测暴力言论,但其生成内容需要与人类价值观对齐以符合当今的社会道德标准。暴力言论检测研究在未来发展包括多模态暴力言论检测研究、基于大模型的暴力言论检测方法研究、基于大模型的暴力言论监管机制研究、暴力言论检测的可解释性研究等4个主要方向。 展开更多
关键词 网络语言治理 暴力言论检测 大语言模型 语料库建设
下载PDF
基于多域融合及神经架构搜索的语音增强方法
15
作者 张睿 张鹏云 孙超利 《通信学报》 EI CSCD 北大核心 2024年第2期225-239,共15页
为进一步提高语音增强模型的自学习及降噪能力,提出基于多域融合及神经架构搜索的语音增强方法。该方法设计了语音信号多空间域映射及融合机制,实现信号实复数关联关系的挖掘;围绕模型卷积池化运算特点,提出了复数神经架构搜索机制,通... 为进一步提高语音增强模型的自学习及降噪能力,提出基于多域融合及神经架构搜索的语音增强方法。该方法设计了语音信号多空间域映射及融合机制,实现信号实复数关联关系的挖掘;围绕模型卷积池化运算特点,提出了复数神经架构搜索机制,通过设计的搜索空间、搜索策略及评估策略,高效自动地构建出语音增强模型。实验搜索到的最优语音增强模型与基线模型的对比泛化实验中,语音质量客观评价(PESQ)、短时客观可懂度(STOI)两大指标较最优基线模型均最大提升5.6%,且模型参数量最低。 展开更多
关键词 语音增强模型 复数空间域映射 多域融合 复数神经架构搜索 低成本评估
下载PDF
基于E-Model的语音帧分组传输性能研究 被引量:1
16
作者 李腾 杨霄鹏 +1 位作者 杨朝阳 欧阳超 《测控技术》 CSCD 北大核心 2014年第5期35-39,共5页
voIP的语音帧分组大小是实时语音传输的关键参数。为提高网络效率和最大话路数,采用EModel的方法分析了RTP包中语音帧个数、语音长度、丢包概率和抖动缓冲区大小对语音质量的影响,给出了不同带宽时的最佳传输分组大小。仿真结果表明,在... voIP的语音帧分组大小是实时语音传输的关键参数。为提高网络效率和最大话路数,采用EModel的方法分析了RTP包中语音帧个数、语音长度、丢包概率和抖动缓冲区大小对语音质量的影响,给出了不同带宽时的最佳传输分组大小。仿真结果表明,在保证最基本的话音质量情况下,为不同链路确定合适的分组语音帧数能有效提高链路的最大话路数。 展开更多
关键词 VOIP E-model 语音帧 语音质量
下载PDF
融合语言模型的端到端濒危语言语音识别研究
17
作者 阮征 于重重 +1 位作者 钱兆鹏 吴佳佳 《计算机仿真》 2024年第7期330-335,共6页
保护濒危语言的有效方法主要是保存该语言的语音和视频数据,并需要母语人士和专业领域的语言学家对语料进行标注。土家语是无文字濒危语言,由于语料资源匮乏及其独特的语法结构,不仅导致语音识别准确性低,而且仅停留在语音层面。故提出... 保护濒危语言的有效方法主要是保存该语言的语音和视频数据,并需要母语人士和专业领域的语言学家对语料进行标注。土家语是无文字濒危语言,由于语料资源匮乏及其独特的语法结构,不仅导致语音识别准确性低,而且仅停留在语音层面。故提出融合汉语对译词级语言模型的端到端语音识别模型,将语言模型融合到声学模型的解码阶段进行联合解码,输出中文序列标记的土家语。该模型首先搭建基于Attention-CTC的混合语音识别模型;其次通过基于词法信息的建模单元为词级国际音标序列的TransLM(基于transformer的词级语言模型)模型,输出对译序列。在土家语语音数据上的实验表明该模型针对土家语的识别相比较基于Attention的和基于CTC的模型在WER指标上分别降低了10.3%和9.6%,为未来研究如何提升将语音信号转为国际音标序列的正确率做了有效尝试。 展开更多
关键词 濒危语言 无文字语言 端到端语音识别 语言模型 注意力机制
下载PDF
面向闽南方言的自监督模型迁移学习
18
作者 林佳燕 黄胡恺 +3 位作者 卢胜辉 许彬彬 李琳 洪青阳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期687-693,共7页
[目的]为了降低低资源闽南方言的语音识别词错误率(character error rate,CER),对中文自监督模型在闽南方言语音识别任务上的微调迁移效果进行研究.[方法]使用两种不同的中文SSL模型Wav2vec 2.0和HuBERT,并采用连接时序(connectionist t... [目的]为了降低低资源闽南方言的语音识别词错误率(character error rate,CER),对中文自监督模型在闽南方言语音识别任务上的微调迁移效果进行研究.[方法]使用两种不同的中文SSL模型Wav2vec 2.0和HuBERT,并采用连接时序(connectionist temporal classification,CTC)和混合CTC/注意力机制(Attention)的迁移学习策略将模型应用于闽言方言的语音识别中.[结果]相比于跨语言迁移方法,本文方法可以使CER降低4.8个百分点以上.[结论]使用更相似的高资源源语言进行迁移学习,可以缓解低资源语音识别面临的资源受限问题,更易获得高性能的闽南方言语音识别模型. 展开更多
关键词 语音识别 闽南方言 迁移学习 自监督
下载PDF
基于注意力机制语谱图特征提取的语音识别
19
作者 姜囡 庞永恒 高爽 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期320-330,共11页
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语... 针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率. 展开更多
关键词 语音识别 CTC模型 循环神经网络 注意力机制
下载PDF
基于跨语言迁移学习及联合训练的泰语语音合成
20
作者 张欣瑞 杨鉴 王展 《计算机科学》 CSCD 北大核心 2024年第S01期298-304,共7页
随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpe... 随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpeech2声学模型和StyleMelGAN声码器研究泰语语音合成。针对基线系统中存在的问题,提出了3个改进方法以进一步提高泰语合成语音的质量。(1)在泰语语言专家指导下,结合泰语语言学相关知识设计泰语G2P模型,旨在处理泰语文本中存在的特殊拼写方式;(2)根据所设计的泰语G2P模型转换的国际音标表示的音素,选择拥有相似音素输入单元且数据集丰富的语言进行跨语言迁移学习来解决泰语训练数据不足的问题;(3)采用FastSpeech2和StyleMelGAN声码器联合训练的方法解决声学特征失配的问题。为了验证所提方法的有效性,从注意力对齐图、客观评测MCD和主观评测MOS评分3方面进行测评。实验结果表明,使用所提泰语G2P模型可以获得更好的对齐效果进而得到更准确的音素持续时间,采用“所提泰语G2P模型+联合训练+迁移学习”方法的系统可以获得最好的语音合成质量,合成语音的MCD和MOS评分分别为7.43±0.82分和4.53分,明显优于基线系统的9.47±0.54分和1.14分。 展开更多
关键词 语音合成 低资源 泰语G2P模型 迁移学习 联合训练
下载PDF
上一页 1 2 60 下一页 到第
使用帮助 返回顶部