基于深度学习的语音合成与转换技术综述被引量：9

Overview of Speech Synthesis and Voice Conversion Technology Based on Deep Learning

下载PDF

导出

摘要语音信息处理技术在深度学习的推动下发展迅速,其中语音合成和转换技术相结合能实现实时高保真的指定对象、内容的语音输出,在人机交互、泛娱乐等领域具有广泛的应用前景。文中旨在对基于深度学习的语音合成与转换技术进行综述。首先,简要回顾了语音合成和转换技术的发展历程;接着,列举了在语音合成、转换领域的常见公开数据集以便研究者开展相关探索;然后,讨论了从文本到语音模型,包括在风格、韵律、速度等方面进行改进的经典和前沿的模型、算法,并分别对比评述了其效果与发展潜力;进一步针对语音转换进行综述,归纳总结了转换方法与优化思路;最后,总结了语音合成与转换的应用与挑战,并根据其在模型、应用和规范方面所面临的问题,展望了未来在模型压缩、少样本学习和伪造检测方面的发展方向。 Voice information processing technology is developing rapidly under the impetus of deep learning.The combination of speech synthesis and voice conversion technology can achieve real-time high-fidelity voice output of designated objects and content,and has broad application prospects in man-machine interaction,pan-entertainment and other fields.This paper aims to provide an overview of speech synthesis and voice conversion technology based on deep learning.First,this paper briefly reviews the development of speech synthesis and voice conversion technology.Next,it enumerates the common public datasets in these fields so that it is convenient for researchers to carry out related explorations.Then,it discusses the TTS models,including the classic and cutting-edge models and algorithms in terms of style,rhythm,speed,and compares their effects and development potentials respectively.Then,it reviews voice conversion by summarizing the voice conversion methods and optimization methods.Finally,it summarizes the applications and challenges of speech synthesis and voice conversion,and looks forward to their future development direction in model compression,few-shot learning and forgery detection,based on the problems faced by them in terms of model,application and regulation.

作者潘孝勤芦天亮杜彦辉仝鑫 PAN Xiao-qin;LU Tian-liang;DU Yan-hui;TONG Xin(College of Informationand Cyber Security,People’s Public Security University of China,Beijing 100038,China)

机构地区中国人民公安大学信息网络安全学院

出处《计算机科学》 CSCD 北大核心 2021年第8期200-208,共9页 Computer Science

基金国家重点研发计划(2017YFB0802804) 中国人民公安大学基本科研业务费重大项目(2020JKF101)。

关键词语音信息处理语音合成语音转换深度学习生成对抗网络 Voice information processing Speech synthesis Voice conversion Deep learning Generative adversarial networks

分类号 TP301 [自动化与计算机技术—计算机系统结构] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1陶建华,傅睿博,易江燕,王成龙,汪涛.语音伪造与鉴伪的发展与挑战[J].信息安全学报,2020,5(2):28-38. 被引量：16

共引文献15

1夏翔,方磊,方四安,柳林.基于自监督预训练和有监督微调的伪造语音检测方法[J].计算机应用,2023,43(S01):263-268.
2芦天亮,涂君奥,杜彦辉,刘颖卿.基于大数据技术的电信网络诈骗案件分析实验设计[J].实验技术与管理,2020,37(10):50-55. 被引量：9
3韩语晨,华光,张海剑.基于Inception3D网络的眼部与口部区域协同视频换脸伪造检测[J].信号处理,2021,37(4):567-577. 被引量：7
4陈代杰.常态化防控背景下构建高校预防电信网络诈骗机制的研究[J].法制博览（名家讲坛、经典杂文）,2021(29):125-126. 被引量：8
5孙锬锋,蒋兴浩,许可,许强,彭朝阳,寿利奔.数字视频篡改痕迹的被动检测技术综述[J].信号处理,2021,37(12):2356-2370.
6任延珍,刘晨雨,刘武洋,王丽娜.语音伪造及检测技术研究综述[J].信号处理,2021,37(12):2412-2439. 被引量：16
7周琳娜,杨震,储贝林,王任颖,毛羽哲,陈贤浩.多媒体认知安全综述[J].信号处理,2021,37(12):2440-2456. 被引量：5
8林成.信息化时代下高校对防诈骗安全体系建成的探析[J].信息系统工程,2021,34(12):105-108.
9甘海林,雷震春,杨印根.孪生Bi-LSTM模型在语音欺骗检测中的研究[J].小型微型计算机系统,2022,43(6):1265-1271. 被引量：2
10范玉吉,于雅洁.网络传播中“深度伪造”技术及其产物的刑法规制[J].犯罪研究,2022(1):51-60. 被引量：4

同被引文献81

1程美,王力华.医疗智能语音技术与应用综述[J].中国数字医学,2021,16(8):1-7. 被引量：7
2张政,严哲,顾汉明.基于残差网络与迁移学习的断层自动识别[J].石油地球物理勘探,2020(5):950-956. 被引量：23
3罗仕鉴.群智设计新思维[J].机械设计,2020,37(3):121-127. 被引量：32
4夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：11
5边树涛,孟利,张柏枫.利用多尺度边缘检测技术识别低序级断层——以辛15断块古近系东营组为例[J].内蒙古石油化工,2011,37(12):1-4. 被引量：2
6井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
7张军华,王月英,赵勇.Application of the third generation of coherent cube inrecognizing faults and fractures[J].地震学报,2004,26(5):560-564. 被引量：41
8张文昭.浅谈中国东西部石油地质特征的差异与找油新思路[J].河南石油,1995,9(2):1-3. 被引量：1
9于波,肖红.基于RBF网络的断层自动识别[J].福建电脑,2006,22(10):133-134. 被引量：6
10崔若飞,王磊.应用人工神经网络识别断层[J].煤田地质与勘探,1997,25(3):57-59. 被引量：11

引证文献9

1仝鑫,张长琳.互联网发展新背景下的网络谣言发展及防控机制研究[J].河南警察学院学报,2021,30(6):113-117.
2安鑫,代子彪,李阳,孙晓,任福继.基于BERT的端到端语音合成方法[J].计算机科学,2022,49(4):221-226. 被引量：9
3杨海涛,王华朋,牛瑾琳,楚宪腾,林暖辉.融合LSTM-GRU网络的语音逻辑访问攻击检测[J].数据采集与处理,2022,37(2):396-404. 被引量：2
4杨晶,丁仁伟,林年添,赵俐红,赵硕,张玉洁,张金伟.基于深度学习的地震断层智能识别研究进展[J].地球物理学进展,2022,37(1):298-311. 被引量：13
5刘迷.基于STM32的智能语音控制系统设计[J].工业仪表与自动化装置,2022(4):14-18. 被引量：7
6陈志业,张智骞,王兵,谢元坤.AI语音合成技术的应用与展望[J].影视制作,2023,29(3):51-55. 被引量：5
7王翀,周龙飞,张祖耀.基于活动理论的听障骑手AI语音交互产品设计[J].设计,2023,36(9):138-141. 被引量：1
8张佳琳,买日旦·吾守尔,古兰拜尔·吐尔洪.低资源条件下的语音合成方法综述[J].计算机工程与应用,2023,59(15):1-16. 被引量：1
9王翠英.基于深度学习的合成语音转换问题研究[J].自动化与仪器仪表,2023(7):196-200. 被引量：2

二级引证文献40

1郎巨林,郑晟.基于CNN-RNN集成的隧道事故异常声音识别[J].电子测量技术,2023,46(20):164-169. 被引量：1
2单维锋,李志扬,陈俊,刘海军,张秀霞,邢丽莉,胡秀娟,夏庆新,夏金铸.应用卷积神经网络和自注意力机制识别地磁场干扰事件[J].地震地磁观测与研究,2022,43(5):49-63.
3郑国红.基于TTS技术的高速公路ETC车道语音诱导系统设计及应用[J].西部交通科技,2022(10):190-192. 被引量：1
4张志厚,刘慰心,石泽玉,张健,路润琪,谢小国,徐正宣,张天一.低纬度磁异常的初始模型约束全卷积神经网络化极方法[J].地球物理学报,2023,66(1):412-429.
5张一,丁仁伟,赵硕,孙世民,韩天娇.基于改进环形生成对抗网络的浅地层剖面去噪方法[J].CT理论与应用研究（中英文）,2023,32(1):15-25.
6张冠萍.基于语音合成的英语机器翻译机器人设计[J].自动化与仪器仪表,2023(2):247-252. 被引量：1
7陈国飞,石颖,杨会东,宋宝权,王维红,于波,熊向东.基于优势低频带地震数据的属性融合断层识别方法[J].地球物理学报,2023,66(3):1232-1243. 被引量：5
8吴鸿飞,黄义忠,陈国坤,牛剑龙,王秋婷.基于三维地震数据的断层空间展布特征提取[J].软件,2023,44(2):62-65.
9李建平,张硕伟,丁仁伟,麻晓敏,赵俐红,赵硕.面向地震波初至智能拾取的超分辨率深度残差方法研究[J].石油地球物理勘探,2023,58(2):251-262. 被引量：2
10刘晓娟.基于改进Seq2Seq的翻译机器人纠错系统设计[J].自动化与仪器仪表,2023(4):201-205.

1世纪.刘庆峰:创造千亿市值的AI语音拓荒者[J].启迪与智慧（上）,2021(4):84-87.
2陈立,朱丙丽.基于多尺度与改进注意力机制的序列到序列模型[J].计算机应用与软件,2020,37(12):140-144.
3孙岳川,高键东,吴及.临床医学人工智能:典型应用与挑战[J].中国卒中杂志,2021,16(7):643-648. 被引量：9
4牛奔舒.电视新闻媒体的积极探索[J].新闻文化建设,2021(10):114-115.
5徐晨煜.基于统计机器学习的端到端的语音合成研究[J].电子世界,2020(6):77-79. 被引量：1
6王青永.隧道工程防水施工工艺与质量控制[J].交通科技与管理,2021(23):161-161.
7任彬,王宇庆,丛振,聂海涛,杨航.基于MPSOC的航空图像目标检测系统设计[J].液晶与显示,2021,36(7):1006-1017. 被引量：7
8胡鑫.关于高速公路服务区连锁便利店经营管理的策略分析[J].中国外资（下半月）,2019(7):95-95.
9张师语.基于语音信号处理方法的声学界标的检测[J].IT经理世界,2019,22(9):71-72.
10陈栋,田宗浩.面向深度学习的弹载图像处理异构加速现状分析[J].航空兵器,2021,28(3):10-17. 被引量：5

计算机科学

2021年第8期

浏览历史

内容加载中请稍等...

基于深度学习的语音合成与转换技术综述被引量：9

参考文献1

共引文献15

同被引文献81

引证文献9

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于深度学习的语音合成与转换技术综述 被引量：9

参考文献1

共引文献15

同被引文献81

引证文献9

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于深度学习的语音合成与转换技术综述被引量：9