基于深度学习的中文情感语音合成方法被引量：5

Chinese emotional speech synthesis method based on deep learning

导出

摘要语音合成是人机交互的组成部分,并在该过程中起到了闭环的作用。人在说话时能表现出自己的情绪状态,如高兴、悲伤、愤怒等,在现有的语音合成模型中没有得到充分体现,致力于合成出具有情感特征的中文语音,提出了一种中文情感语音合成方法,该方法结合情感语音库对模型优化训练,添加中文处理模型,通过对语音参数的修正,可以提高语音的情感度。结果表明:成熟的模型可以合成出优质的中文语音,情感方面也得到有效的体现。 Speech synthesis is an integral part of human-computer interaction and plays a role in closing the loop in the process. People can show their emotional states when speaking, such as happy, sad, angry, etc., which are not fully reflected in existing speech synthesis models. Dedicated to synthesizing Chinese speech with emotional features, we propose a Chinese emotional speech synthesis method, which combines an emotional speech library to optimize the training of the model, add Chinese processing model, and through the correction of speech parameters, can improve the emotionality. The results show that the mature model can synthesize high quality Chinese speech and the emotional aspect is effectively reflected.

作者王智刘银华 WANG Zhi;LIU Yinhua(Institute of Future,School of Automation,Qingdao University,Qingdao,Shandong 266071,China)

机构地区青岛大学自动化学院未来研究院

出处《自动化与仪器仪表》 2022年第9期10-15,共6页 Automation & Instrumentation

关键词语音合成情感深度学习神经网络 speech synthesis emotional deep learning neural Networks

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张林.虚拟环境下的智能语音聊天机器人设计[J].计算机与数字工程,2019,47(10):2617-2621. 被引量：4
2喻国明,王文轩,冯菲,修利超.合成语音新闻的传播效果评测——关于语速影响的EEG证据[J].国际新闻界,2021,43(2):6-26. 被引量：13
3陈芳.AI虚拟数字人技术在融合媒体生产中的运用[J].数字通信世界,2021(1):21-23. 被引量：16
4王坚,张媛媛.基于深度神经网络的汉语语音合成的研究[J].计算机科学,2015,42(S1):75-78. 被引量：10
5韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：169
6陈明义,党培霞.基于情感基音模板的情感语音合成[J].中南大学学报（自然科学版）,2010,41(6):2258-2263. 被引量：4
7李勇,魏珰,王柳渝.基于PSOLA与DCT的情感语音合成方法[J].计算机工程,2017,43(12):278-282. 被引量：5

二级参考文献116

1张立华,杨莹春.情感语音变化规律的特征分析[J].清华大学学报（自然科学版）,2008,48(S1):652-657. 被引量：14
2Vine D S G,Sahandi R.Synthesis of emotional speech using RP-PSOLA[C] //IEEE Seminar State of the Art in Speech Synthesis Proceedings.London,2000:8/1-8/6.
3Murray I R.Emotion in concatenated speech[C] //IEEE Seminar State of the Arts in Speech Synthesis Proceedings.London,2000:7/1-7/8.
4Su Z,Wang Z.An approach to affective-tone modeling for mandarin[C] //Affective Computing and Intelligent Interaction.Beijing,2005:390-396.
5Su Z,Wang Z.An approach to affective-tone modeling for mandarin[C]//Affective Computing and Intelligent Interaction.Beijing,2005:390-396.
6Hyun K H,Kim E H,Kwak Y K.Robust speech emotion recognition using log frequency power ratio[C] //SICE-ICASE International Joint Conference.Busan,2006:2586-2589.
7GAO Hui,CHEN Shan-guang.Emotion classification of infant voice based on features derived from teenager energy operator[C] //IEEE Congress on Image and Signal Processing.Sanya,China,2008:333-337.
8Gu W,Hirose K,Fujisaki H.A method for automatic tone command parameter extraction for the model of F0 contour generation for mandarin[C] //IEEE Workshop on Automatic Speech Recognition and Understanding.Nara,Japan,2004:435-438.
9Iida A,Campbell N,Higuhi F.A corpus based speech synthesis system with emotion[J].Speech Communication,2003,40(1):87-161.
10Ververidisand D,Kotropoulos C.Emotional speech recognition:Resources,features and methods[J].Speech Communication,2006,48(9):1151-1162.

共引文献214

1郑成杰,郑之.基于最大分类器差异域适应方法的3维点云分类[J].信息与控制,2023,52(5):588-597.
2张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
3谭春林.虚拟数字人用于学术期刊视频融合出版实践[J].编辑学报,2023,35(1):89-93. 被引量：11
4王华,樊养余.人脸语音动画中基于PSOLA的情感语音合成系统[J].计算机应用研究,2012,29(3):1002-1004.
5李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：26
6李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
7张福泉.情感建模及情感识别技术研究[J].廊坊师范学院学报（自然科学版）,2014,14(5):23-26. 被引量：4
8孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2
9余春艳,翁子林.音频情感感知与视频精彩片段提取[J].计算机辅助设计与图形学学报,2015,27(10):1890-1899. 被引量：4
10孙颖,姚慧,张雪英,张奇萍.基于混沌特性的情感语音特征提取[J].天津大学学报（自然科学与工程技术版）,2015,48(8):681-685. 被引量：12

同被引文献51

1韩鹏飞,陈晓.基于MFCC-IMFCC和GA-SVM的鸟声识别[J].计算机系统应用,2022,31(11):393-399. 被引量：8
2张玉娇.基于Tensorflow框架的手写数字识别[J].内江科技,2022,43(2):54-55. 被引量：6
3王阳,李振东,杨观赐.基于深度学习的OCR文字识别在银行业的应用研究[J].计算机应用研究,2020,37(S02):375-379. 被引量：21
4马骏.车站售票大厅智能排队叫号系统的设计和开发[J].科技情报开发与经济,2010,20(19):111-113. 被引量：6
5李兵.基于Ubuntu 18.04版本的网络配置及软件源本地化研究[J].电子测试,2018,29(15):83-83. 被引量：2
6邱泽宇,屈丹,张连海.基于WaveNet的端到端语音合成方法[J].计算机应用,2019,39(5):1325-1329. 被引量：10
7黄欣,张志强,单杏花,张涛,李士达.基于电子客票的铁路旅客智能出行研究[J].中国铁路,2019(11):1-6. 被引量：22
8叶年发,杨岗,严瑾,程智源.浅析铁路智能旅客车站系统的现状和发展[J].高速铁路技术,2020,11(2):40-45. 被引量：7
9张朝晖,刘远铎.基于CenterNet的小学生英文手写体区域检测[J].河北工业科技,2020,37(5):291-299. 被引量：1
10石英男,樊瑶,张泞君.基于红帽Linux的银行排队叫号系统[J].软件导刊,2020,19(11):131-135. 被引量：4

引证文献5

1房小绵.基于语音识别的英语智能对话机器人人机交互系统设计[J].自动化与仪器仪表,2023(4):225-228. 被引量：5
2何娟.基于深度学习网络的手写英文自动化识别模型在机器英汉互译中的应用研究[J].自动化与仪器仪表,2023(7):191-195.
3付志霞,王然然,刘伟,万国睿.铁路售票厅排队叫号系统设计与实现[J].铁路计算机应用,2024,33(2):53-56. 被引量：1
4高盛祥,杨元樟,王琳钦,莫尚斌,余正涛,董凌.面向域外说话人适应场景的多层级解耦个性化语音合成[J].广西师范大学学报（自然科学版）,2024,42(4):11-21.
5张凌益,朱甦,徐一通,汪燕,余昀锴,周浩辉,周磊.一种基于Jetson Nano的智能辅助导盲装置设计[J].物联网技术,2024,14(10):70-72.

二级引证文献6

1贾丹妮.基于传感器技术的情绪采集与电子音乐交互实现[J].自动化与仪器仪表,2024(2):242-245.
2郭欢,石岩松,吴桐,卫艺冉,范作阳.大语言模型在ROS机器人语音交互上的实践与应用[J].微型计算机,2024(4):34-36.
3陈琦棋,田思庆,陈鑫媛,姚星月.一个基于微信小程序的陪诊服务平台设计与开发[J].科技传播,2024,16(10):125-128.
4田野,刘公政,周钦山.基于语音识别的信号分析仪控制系统设计与实现[J].电声技术,2024,48(8):54-57.
5王亚欣,张蓓蓓.基于AI的电力智能调度语音识别交互系统设计[J].通信电源技术,2024,41(18):73-75.
6王锦.基于改进1DCNN的英语语音识别人机交互系统设计[J].电子产品世界,2024,31(9):36-38.

1李丹.英语翻译机辅助扩音装置优化研究[J].自动化与仪器仪表,2022(9):201-205.
2王伟喆,郭威彤,杨鸿武.手语到情感语音的转换[J].计算机工程与科学,2022,44(10):1869-1876.
3李子润,徐晋,汪可友,吴盼,李国杰.电力电子换流器离散小步合成实时仿真模型[J].电工技术学报,2022,37(20):5267-5277. 被引量：5

自动化与仪器仪表

2022年第9期

浏览历史

内容加载中请稍等...

基于深度学习的中文情感语音合成方法被引量：5

参考文献7

二级参考文献116

共引文献214

同被引文献51

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文情感语音合成方法 被引量：5

参考文献7

二级参考文献116

共引文献214

同被引文献51

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文情感语音合成方法被引量：5