期刊文献+
共找到88篇文章
< 1 2 5 >
每页显示 20 50 100
Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning
1
作者 Thanh X.Le An T.Le Quang H.Nguyen 《Computer Systems Science & Engineering》 SCIE EI 2023年第2期1263-1278,共16页
In recent years,speech synthesis systems have allowed for the produc-tion of very high-quality voices.Therefore,research in this domain is now turning to the problem of integrating emotions into speech.However,the met... In recent years,speech synthesis systems have allowed for the produc-tion of very high-quality voices.Therefore,research in this domain is now turning to the problem of integrating emotions into speech.However,the method of con-structing a speech synthesizer for each emotion has some limitations.First,this method often requires an emotional-speech data set with many sentences.Such data sets are very time-intensive and labor-intensive to complete.Second,training each of these models requires computers with large computational capabilities and a lot of effort and time for model tuning.In addition,each model for each emotion failed to take advantage of data sets of other emotions.In this paper,we propose a new method to synthesize emotional speech in which the latent expressions of emotions are learned from a small data set of professional actors through a Flow-tron model.In addition,we provide a new method to build a speech corpus that is scalable and whose quality is easy to control.Next,to produce a high-quality speech synthesis model,we used this data set to train the Tacotron 2 model.We used it as a pre-trained model to train the Flowtron model.We applied this method to synthesize Vietnamese speech with sadness and happiness.Mean opi-nion score(MOS)assessment results show that MOS is 3.61 for sadness and 3.95 for happiness.In conclusion,the proposed method proves to be more effec-tive for a high degree of automation and fast emotional sentence generation,using a small emotional-speech data set. 展开更多
关键词 emotional speech synthesis flowtron speech synthesis style transfer vietnamese speech
下载PDF
Emotional Speech Synthesis Based on Prosodic Feature Modification 被引量:2
2
作者 Ling He Hua Huang Margaret Lech 《Engineering(科研)》 2013年第10期73-77,共5页
The synthesis of emotional speech has wide applications in the field of human-computer interaction, medicine, industry and so on. In this work, an emotional speech synthesis system is proposed based on prosodic featur... The synthesis of emotional speech has wide applications in the field of human-computer interaction, medicine, industry and so on. In this work, an emotional speech synthesis system is proposed based on prosodic features modification and Time Domain Pitch Synchronous OverLap Add (TD-PSOLA) waveform concatenative algorithm. The system produces synthesized speech with four types of emotion: angry, happy, sad and bored. The experiment results show that the proposed emotional speech synthesis system achieves a good performance. The produced utterances present clear emotional expression. The subjective test reaches high classification accuracy for different types of synthesized emotional speech utterances. 展开更多
关键词 emotional speech synthesis Prosodic Features Time Domain PITCH SYNCHRONOUS OVERLAP ADD
下载PDF
Towards Realizing Mandarin-Tibetan Bi-lingual Emotional Speech Synthesis with Mandarin Emotional Training Corpus
3
作者 Peiwen Wu Hongwu Yang Zhenye Gan 《国际计算机前沿大会会议论文集》 2017年第2期29-32,共4页
This paper presents a method of hidden Markov model (HMM)-based Mandarin-Tibetan bi-lingual emotional speech synthesis by speaker adaptive training with a Mandarin emotional speech corpus.A one-speaker Tibetan neutral... This paper presents a method of hidden Markov model (HMM)-based Mandarin-Tibetan bi-lingual emotional speech synthesis by speaker adaptive training with a Mandarin emotional speech corpus.A one-speaker Tibetan neutral speech corpus, a multi-speaker Mandarin neutral speech corpus and a multi-speaker Mandarin emotional speech corpus are firstly employed to train a set of mixed language average acoustic models of target emotion by using speaker adaptive training.Then a one-speaker Mandarin neutral speech corpus or a one-speaker Tibetan neutral speech corpus is adopted to obtain a set of speaker dependent acoustic models of target emotion by using the speaker adap-tation transformation. The Mandarin emotional speech or the Tibetan emotional speech is finally synthesized from Mandarin speaker depen-dent acoustic models of target emotion or Tibetan speaker dependent acoustic models of target emotion. Subjective tests show that the aver-age emotional mean opinion score is 4.14 for Tibetan and 4.26 for Mandarin. The average mean opinion score is 4.16 for Tibetan and 4.28 for Mandarin. The average degradation opinion score is 4.28 for Tibetan and 4.24 for Mandarin. Therefore, the proposed method can synthesize both Tibetan speech and Mandarin speech with high naturalness and emotional expression by using only Mandarin emotional training speech corpus. 展开更多
关键词 Mandarin-Tibetan cross-lingual emotional speech synthesis hidden Markov model (HMM) Speaker adaptive training Mandarin-Tibetan cross-lingual speech synthesis emotional speech synthesis
下载PDF
Control Emotion Intensity for LSTM-Based Expressive Speech Synthesis
4
作者 Xiaolian Zhu Liumeng Xue 《国际计算机前沿大会会议论文集》 2019年第2期654-656,共3页
To improve the performance of human-computer interaction interfaces, emotion is considered to be one of the most important factors. The major objective of expressive speech synthesis is to inject various expressions r... To improve the performance of human-computer interaction interfaces, emotion is considered to be one of the most important factors. The major objective of expressive speech synthesis is to inject various expressions reflecting different emotions to the synthesized speech. To effectively model and control the emotion, emotion intensity is introduced for expressive speech synthesis model to generate speech conveyed the delicate and complicate emotional states. The system was composed of an emotion analysis module with the goal of extracting control emotion intensity vector and a speech synthesis module responsible for mapping text characters to speech waveform. The proposed continuous variable “perception vector” is a data-driven approach of controlling the model to synthesize speech with different emotion intensities. Compared with the system using a one-hot vector to control emotion intensity, this model using perception vector is able to learn the high-level emotion information from low-level acoustic features. In terms of the model controllability and flexibility, both the objective and subjective evaluations demonstrate perception vector outperforms one-hot vector. 展开更多
关键词 EMOTION INTENSITY Expressive speech synthesis CONTROLLABLE TEXT-TO-speech NEURAL networks
下载PDF
Towards Realizing Sign Language to Emotional Speech Conversion by Deep Learning
5
作者 Nan Song Hongwu Yang Pengpeng Zhi 《国际计算机前沿大会会议论文集》 2018年第2期34-34,共1页
关键词 SIGN LANGUAGE recognition FACIAL expression recognitionDeep Neural Network emotional speech synthesisSign LANGUAGE to speech CONVERSION
下载PDF
情感语音合成中的语义及韵律特征嵌入方法
6
作者 石凡 杨鉴 《信息技术》 2024年第7期26-33,共8页
针对当前的情感语音合成方法存在合成音频容易忽略文本语义信息的问题,在文本编码器中引入BERT预训练模型,辅助编码器捕获文本语义特征,并提出了语义及韵律特征嵌入方法。缅甸语情感语料的缺乏导致模型难以合成高质量情感语音,因此,文... 针对当前的情感语音合成方法存在合成音频容易忽略文本语义信息的问题,在文本编码器中引入BERT预训练模型,辅助编码器捕获文本语义特征,并提出了语义及韵律特征嵌入方法。缅甸语情感语料的缺乏导致模型难以合成高质量情感语音,因此,文中通过微调各个网络模块参数的方法探索缅甸语情感语音合成模型的训练方法。实验结果表明,文中提出的特征嵌入方法以及训练方法在情感语料缺乏情况下仍能合成出高质量的情感语音,平均情感意见得分分别为4.16与4.18。 展开更多
关键词 缅甸语 情感语音合成 语义特征 韵律特征 微调
下载PDF
基于迁移学习双阶段训练的情感语音克隆技术
7
作者 李囡 郭浩 相洁 《计算机工程与设计》 北大核心 2024年第5期1533-1540,共8页
为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段... 为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段,采用情感语音数据集对其参数进行微调,提取具有情感信息的说话人特征。将此特征作为合成器的输入对梅尔谱的生成过程进行调节,通过声码器将此梅尔谱转换为具有目标说话人信息的情感语音。主客观分析结果表明,该方法所生成的克隆语音的情感相似度更高,音色相似度也有一定改善。 展开更多
关键词 迁移学习 情感语音克隆 情感语音合成 双阶段训练 说话人识别 说话人编码 参数微调
下载PDF
基于优化Apriori算法的藏语音韵律规则研究
8
作者 达哇彭措 《微计算机信息》 2010年第18期202-204,共3页
韵律规则对于语音识别和语音合成具有重要意义,韵律特征参数的描述正确与否直接影响合成系统的输出。为了提高藏语语音合成中语音的自然度,本文研究了基于数据挖掘中的关联规则来发现韵律参数之间的相互关系,给出了Apriori算法采用敏捷... 韵律规则对于语音识别和语音合成具有重要意义,韵律特征参数的描述正确与否直接影响合成系统的输出。为了提高藏语语音合成中语音的自然度,本文研究了基于数据挖掘中的关联规则来发现韵律参数之间的相互关系,给出了Apriori算法采用敏捷设计原则设计算法的UML类图和Java实现过程,并基于该算法获得藏语韵律参数中基频参数的变化规则,这些规则可以为藏语语音合成系统的选音提供帮助。 展开更多
关键词 语音合成 韵律参数 关联规则 apriorI算法 JAVA实现 敏捷设计原则
下载PDF
Multimodal Expression—Synthesis of Facial Emotion,Mouth Movement and Voice
9
作者 张晶 高文 陈熙霖 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 1997年第2期63-71,共9页
MultimodalExpresion—SynthesisofFacialEmotion,MouthMovementandVoiceZHANGJingGAOWenCHENXilin(张晶)(高文)(陈熙霖)(Dep... MultimodalExpresion—SynthesisofFacialEmotion,MouthMovementandVoiceZHANGJingGAOWenCHENXilin(张晶)(高文)(陈熙霖)(Dept.ofComputerScien... 展开更多
关键词 MULTIMODAL EXPRESSION EMOTION synthesis MOUTH MOVEMENT synthesis speech synthesis
下载PDF
基于条件变分自编码器的端到端情感语音合成方法 被引量:3
10
作者 张建明 彭锦涛 +1 位作者 贾洪杰 毛启容 《信号处理》 CSCD 北大核心 2023年第4期678-687,共10页
情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均... 情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法(Conditional Duration-Tacotron,CD-Tacotron),该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。 展开更多
关键词 情感语音合成 条件变分自编码器 端到端 Tacotron
下载PDF
维度语音情感识别研究综述
11
作者 张成 石磊 赵慧然 《科技资讯》 2023年第10期253-256,共4页
维度语音情感识别是语音识别技术的重要研究方向,提取最能表达语音情感的特征码并构建具有模型泛化性和鲁棒性的声学模型是语音情感识别的重要研究内容。同时,其触及领域具备较强的多样性,心理学、模式识别以及认知科学等均属于其研究范... 维度语音情感识别是语音识别技术的重要研究方向,提取最能表达语音情感的特征码并构建具有模型泛化性和鲁棒性的声学模型是语音情感识别的重要研究内容。同时,其触及领域具备较强的多样性,心理学、模式识别以及认知科学等均属于其研究范围,而这些模块是其研究的重点,开展研究的目的主要是为了让机器具备人类情感,促使人机交互更加自然灵活。基于此,该文阐述了在情感心理学的研究基础上,分析情感语音数据库与数据标注,并对情感分类与回归加以探索,希望可以为维度语音情感识别提供新的思路。 展开更多
关键词 维度语音 情感模型 识别 算法
下载PDF
汉语儿童情感语声合成
12
作者 胡航烨 王蔚 《应用声学》 CSCD 北大核心 2023年第1期76-83,共8页
情感语声合成技术对于人机交互具有重要的意义。面对儿童情感语声合成所需汉语语声数据资源缺乏以及模型训练时长较长等问题,该文提出利用迁移学习实现汉语儿童情感语声合成的方法。首先基于汉语语声数据库训练深度学习模型实现中文语... 情感语声合成技术对于人机交互具有重要的意义。面对儿童情感语声合成所需汉语语声数据资源缺乏以及模型训练时长较长等问题,该文提出利用迁移学习实现汉语儿童情感语声合成的方法。首先基于汉语语声数据库训练深度学习模型实现中文语声端到端合成模型,再使用高质量大样本的中文情感语料库完成情感语声合成模型,最后利用自行采样的小样本汉语儿童情感语料对模型进行迁移学习实现低资源的语声合成。客观实验结果中梅尔倒谱失真指标为4.91,主观听辨实验指标分别为3.61和4.17。通过实验对比表明,该文的方法在情感语声合成技术的应用上具有良好的性能表现,并且优于现有先进的低资源情感语声合成方法。 展开更多
关键词 儿童 情感语声合成 迁移学习 低资源
下载PDF
Recognition of practical speech emotion using improved shuffled frog leaping algorithm 被引量:4
13
作者 ZHANG Xiaodan HUANG Chengwei +1 位作者 ZHAO Li ZOU Cairong 《Chinese Journal of Acoustics》 2014年第4期441-456,共16页
Due to the drawbacks in Support Vector Machine(SVM)parameter optimization,an Improved Shuffled Frog Leaping Algorithm(Im-SFLA)was proposed,and the learning ability in practical speech emotion recognition was impro... Due to the drawbacks in Support Vector Machine(SVM)parameter optimization,an Improved Shuffled Frog Leaping Algorithm(Im-SFLA)was proposed,and the learning ability in practical speech emotion recognition was improved.Firstly,we introduced Simulated Annealing(SA),Immune Vaccination(Iv),Gaussian mutation and chaotic disturbance into the basic SFLA,which bManced the search efficiency and population diversity effectively.Secondly,Im-SFLA Was applied to the optimization of SVM parameters,and an Im-SFLA-SVM method Was proposed.Thirdly,the acoustic features of practical speech emotion,such aS ridgetiness,were analyzed.The pitch frequency,short-term energy,formant frequency and chaotic characteristics were analyzed corresponding to different emotion categories,and we constructed a 144-dimensional emotion feature vector for recognition and reduced to 4-dimension by adopting Linear Discriminant Analysis(LDA) Finally,the Im-SFLA-SVM method Was tested on the practical speech emotion database,and the recognition results were compared with Shuffled Frog Leaping Algorithm optimization-SVM(SFLA-SVM)method,Particle Swarm Optimization algorithm optimization-SVM(PSo-SVM) method,basic SVM,Gaussian Mixture Model(GMM)method and Back Propagation(BP)neural network method.The experimentM resuits showed that the average recognition rate of Im-SFLA-SVM method was 77.8%,which had improved 1.7%,2.7%,3.4%,4.7%and 7.8%respectively,compared with the other methods.The recognition of fidgetiness was significantly improve,thus verifying that Im-SFLA was an effective SVM parameter selection method,and the Im-SFLA-SVM method may significantly improve the practical speech emotion recognition. 展开更多
关键词 SFLA SVM Recognition of practical speech emotion using improved shuffled frog leaping algorithm
原文传递
融合多种语言的语音情感识别
14
作者 张可欣 刘云翔 《电子设计工程》 2023年第6期25-29,共5页
由于语言的差异,提高跨语言情感数据库识别语音情感的准确度,仍然是一项难题。该文针对语言差异这一难题,融合了语音情感识别技术和自然语言处理技术。该文选取Berlin语音情感数据库和CASIA语音情感数据库,从两个数据库中分别挑选200条... 由于语言的差异,提高跨语言情感数据库识别语音情感的准确度,仍然是一项难题。该文针对语言差异这一难题,融合了语音情感识别技术和自然语言处理技术。该文选取Berlin语音情感数据库和CASIA语音情感数据库,从两个数据库中分别挑选200条语音,选用开源API下的Google Speech,实现语音文本的转化。使用机器翻译方法,将语言转化为文本,统一翻译成中文。利用自然语言处理的词法分析、句法分析、LSA的关键词提取算法,提取出表达情感的关键词。对于被提取出来的关键词,使用SpeechLib工具包将提取过特征值的文本转化成语音,提取MFCC特征,构建DNN+BLSTM模型,实现语音情感的分类。实验结果表明,文中使用的方法未加权平均召回率(UAR)和加权平均召回率(WAR)分别为48.22%和56.5%,相比其他方法,UAR和WAR分别提高了4%和8%。 展开更多
关键词 语音情感识别 自然语言处理 跨语言的语音情感识别 语音文本转化 LSA关键词提取算法
下载PDF
基于关联认知网络的语音情感识别模型
15
作者 张培杰 孙颖 +2 位作者 张雪英 贾海蓉 段淑斐 《微电子学与计算机》 2023年第8期1-9,共9页
人们通过语言表达情感是一个不断变化的过程,为了使用语音信号的时间连续性表达具体情感,本文搭建了一种基于关联认知网络的GA-GRUS-ICN模型.首先,对输入的语音特征使用GRUS网络提取深度时序特征;然后,引入自注意力机制给重要的特征片... 人们通过语言表达情感是一个不断变化的过程,为了使用语音信号的时间连续性表达具体情感,本文搭建了一种基于关联认知网络的GA-GRUS-ICN模型.首先,对输入的语音特征使用GRUS网络提取深度时序特征;然后,引入自注意力机制给重要的特征片段赋予更高的权重;最后,使用关联认知网络ICN构建情感之间的关联性,得到情感关联矩阵和最终识别结果,本文中对于超参数使用遗传算法GA进行选择.选用TYUT2.0、EMO-DB和CASIA语音数据库中的“悲伤”、“愤怒”、“高兴”三种基本情感作为实验数据,文章设计了五种实验方案进行两个消融实验,实验结果显示,三种模型在三种语音库的UA分别达到了80.83%、98.61%和88.13%,表明GA-GRUSICN识别模型在情感语音识别方面有较强的普适性,自注意力机制与GRUS-ICN模型比较适配,亦可以较好地进行语音情感识别. 展开更多
关键词 语音情感识别 关联认知网络 门控循环单元 遗传算法 自注意力机制
下载PDF
基于改进型SVM算法的语音情感识别 被引量:22
16
作者 李书玲 刘蓉 +1 位作者 张鎏钦 刘红 《计算机应用》 CSCD 北大核心 2013年第7期1938-1941,共4页
为有效提高语音情感识别系统的识别率,研究分析了一种改进型的支持向量机(SVM)算法。该算法首先利用遗传算法对SVM参数惩罚因子和核函数中参数进行优化,然后用优化后的参数进行语音情感的建模与识别。在柏林数据集上进行7种和常用5种情... 为有效提高语音情感识别系统的识别率,研究分析了一种改进型的支持向量机(SVM)算法。该算法首先利用遗传算法对SVM参数惩罚因子和核函数中参数进行优化,然后用优化后的参数进行语音情感的建模与识别。在柏林数据集上进行7种和常用5种情感识别实验,取得了91.03%和96.59%的识别率,在汉语情感数据集上,取得了97.67%的识别率。实验结果表明该算法能够有效识别语音情感。 展开更多
关键词 支持向量机 语音情感识别 语音信号 参数优化 遗传算法
下载PDF
维度语音情感识别研究综述 被引量:15
17
作者 李海峰 陈婧 +3 位作者 马琳 薄洪健 徐聪 李洪伟 《软件学报》 EI CSCD 北大核心 2020年第8期2465-2491,共27页
情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.首先,从心理学及认知学角度介绍了语音情感认知的研究进展,详细介绍了情感... 情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.首先,从心理学及认知学角度介绍了语音情感认知的研究进展,详细介绍了情感的认知理论、维度理论、脑机制以及基于情感理论的计算模型,旨在为语音情感识别提供科学的情感理论模型;然后,从人工智能的角度,系统地总结了目前维度情感识别的研究现状和发展,包括语音维度情感数据库、特征提取、识别算法等技术要点;最后,分析了维度情感识别技术目前面临的挑战以及可能的解决思路,对未来研究方向进行了展望. 展开更多
关键词 情感维度模型 语音情感认知理论 情感计算 语音情感特征提取 维度情感识别算法
下载PDF
混合蛙跳算法神经网络及其在语音情感识别中的应用 被引量:11
18
作者 余华 黄程韦 +2 位作者 张潇丹 金赟 赵力 《南京理工大学学报》 EI CAS CSCD 北大核心 2011年第5期659-663,共5页
该文将混合蛙跳算法(SELA)优化方法应用于人工神经网络训练中,对6种语音情感进行了语音情感特征的分析与识别。研究了谐波噪声比特征随情感类别的变化特性。利用混合蛙跳算法训练随机产生的初始数据优化神经网络的连接权值,快速实现了... 该文将混合蛙跳算法(SELA)优化方法应用于人工神经网络训练中,对6种语音情感进行了语音情感特征的分析与识别。研究了谐波噪声比特征随情感类别的变化特性。利用混合蛙跳算法训练随机产生的初始数据优化神经网络的连接权值,快速实现了网络收敛。实验比较了BP神经网络、RBF神经网络和SFLA神经网络的语音情感识别性能。结果表明,SFLA神经网络的平均识别率分别高于BP神经网络和RBF神经网络4.7%和4.3%。 展开更多
关键词 混合蛙跳算法 神经网络 语音情感识别 辨识率
下载PDF
基于改进的蛙跳算法的神经网络在语音情感识别中的研究 被引量:10
19
作者 余华 黄程韦 +1 位作者 金赟 赵力 《信号处理》 CSCD 北大核心 2010年第9期1294-1299,共6页
本文提出了一种改进的混合蛙跳算法,利用混沌运动的遍历性改善初始个体的质量和引入高斯变异,提高了算法的全局搜索能力,同时将改进算法与人工神经网络结合,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了情感语... 本文提出了一种改进的混合蛙跳算法,利用混沌运动的遍历性改善初始个体的质量和引入高斯变异,提高了算法的全局搜索能力,同时将改进算法与人工神经网络结合,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了情感语音的韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化特性。利用本文所提的蛙跳算法(SFLA)训练随机产生的初始数据,优化神经网络的连接权值,能快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与改进SFLA神经网络分别用于语音情感识别的识别性能,结果表明基于改进SFLA的神经网络的平均识别率高于BP神经网络9.2个百分点,高于RBF神经网络7.9个百分点。因此本文所提的蛙跳神经网络用于语音情感识别能获得明显的识别性能的提升。 展开更多
关键词 混合蛙跳算法 混沌 变异 神经网络 语音情感识别
下载PDF
韵律参数和频谱包络修改相结合的情感语音合成技术研究 被引量:7
20
作者 邵艳秋 韩纪庆 +1 位作者 王卓然 刘挺 《信号处理》 CSCD 北大核心 2007年第4期526-530,共5页
情感语音合成可以增强合成语音的表现力、人情味,是近年来的新兴课题。除了韵律特征之外,音质类和发声器官类参数对情感语音的表达也有着至关重要的影响,而通常的研究大多都是基于规则或者预先为某种情感设计的滤波器来进行这两类参数... 情感语音合成可以增强合成语音的表现力、人情味,是近年来的新兴课题。除了韵律特征之外,音质类和发声器官类参数对情感语音的表达也有着至关重要的影响,而通常的研究大多都是基于规则或者预先为某种情感设计的滤波器来进行这两类参数的修改。本文提出了通过频谱包络综合地调整音质类和发声器官类参数来合成情感语音的方法,并通过实验验证了这一方法的有效性。另外,实验结果也显示了当韵律参数和频谱包络同时得到修改时,相对于单独修改某类参数可以获得更好的情感合成效果。 展开更多
关键词 情感语音合成 频谱包络 韵律修改
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部