基于多重互信息约束的高表现力语音转换

High Expressiveness Voice Conversion Based on Multiple Mutual Information Constraints

下载PDF

导出

摘要随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出一种基于多重互信息约束的高表现力语音转换模型(MMIC-EVC).在对内容和音色特征进行解耦的基础上,引入表现力模块分别对话语级韵律和节奏特征进行建模,以实现情感特性的传递;随后通过最小化各特征之间的多重互信息变分对数上界,约束各编码器专注于解耦对应的声学嵌入.在CSTR-VCTK和ESD语音数据集上的实验表明,本模型的转换音频语音自然度评分(MOS)达到3.78,梅尔倒谱失真为5.39 dB,最佳最差占比测试结果大幅领先于基线模型,MMIC-EVC能够有效解耦韵律和节奏特征,并实现高表现力语音转换,为人机交互带来更加出色和自然的用户体验. As voice conversion technology becomes increasingly prevalent in human-computer interaction,the need for highly expressive speech continues to grow.Currently,voice conversion primarily relies on decoupling acoustic features,emphasizing the decoupling of content and timbre features,but often neglects the emotional features in speech,resulting in insufficient emotional expressiveness in converted audio.To address this problem,this study introduces a novel model for highly expressive voice conversion with multiple mutual information constraints(MMIC-EVC).On top of decoupling content and timbre features,the model incorporates an expressiveness module to capture discourse-level prosody and rhythm features,enabling the conveyance of emotional features.It constrains every encoder to focus on its acoustic embedding by minimizing the variational upper bounds of multiple mutual information between features.Experiments on the CSTR-VCTK and ESD speech datasets indicate that the converted audio of the proposed model achieves a mean opinion score of 3.78 for naturalness and a Mel cepstral distortion of 5.39 dB,significantly outperforming baseline models in the best-worst sensitivity test.The MMIC-EVC model effectively decouples rhythmic and prosodic features,facilitating high expressiveness in voice conversion,and thereby providing a more natural and better user experience in humancomputer interaction.

作者王光刘宗泽姜彦吉董浩 WANG Guang;LIU Zong-Ze;JIANG Yan-Ji;DONG Hao(Software College,Liaoning Technical University,Huludao 125105,China;Suzhou Automotive Research Institute,Tsinghua University,Suzhou 215134,China;OpenSafe Laboratory,Youce(Jiangsu)Safety Technology Co.Ltd.,Suzhou 215100,China)

机构地区辽宁工程技术大学软件学院清华大学苏州汽车研究院优策(江苏)安全科技有限公司OpenSafe实验室

出处《计算机系统应用》 2024年第9期216-225,共10页 Computer Systems & Applications

基金辽宁省教育厅面上项目(LJKZ0338) 葫芦岛市科技计划(2023JH(1)4/02b) 广东省科技创新战略专项市县科技创新支撑项目(STKJ2023071)。

关键词语音转换特征解耦互信息约束韵律建模人机交互 voice conversion feature decoupling mutual information constraint prosody modeling human-computer interaction

分类号 TN912.3 [电子电信—通信与信息系统] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1杨帅,乔凯,陈健,王林元,闫镔.语音合成及伪造、鉴伪技术综述[J].计算机系统应用,2022,31(7):12-22. 被引量：9
2陈乐乐,张雄伟,孙蒙,张星昱.融合梅尔谱增强与特征解耦的噪声鲁棒语音转换[J].声学学报,2023,48(5):1070-1080. 被引量：2

二级参考文献3

1李阳春,俞一彪.倒谱本征空间结构化高斯混合模型语音转换方法[J].声学学报,2015,40(1):12-19. 被引量：9
2谷东,简志华.面向少量语料的语音转换算法[J].声学学报,2018,43(5):864-872. 被引量：4
3张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇.语音转换技术研究现状及展望[J].数据采集与处理,2019,34(5):753-770. 被引量：9

共引文献9

1唐玉敏,范菁,曲金帅.深度伪造生成与检测研究综述[J].计算机工程与应用,2022,58(23):56-66. 被引量：3
2季波,赵宇.基于QT的嵌入式车载终端系统样机开发[J].信息与电脑,2022,34(18):128-131. 被引量：1
3张佳琳,买日旦·吾守尔,古兰拜尔·吐尔洪.低资源条件下的语音合成方法综述[J].计算机工程与应用,2023,59(15):1-16. 被引量：2
4陈海勇,刘苏,陈子弘.语音合成技术在卷烟销售智能客服系统中的应用[J].海峡科学,2023(8):81-84.
5李囡,郭浩,相洁.基于迁移学习双阶段训练的情感语音克隆技术[J].计算机工程与设计,2024,45(5):1533-1540.
6许裕雄,李斌,谭舜泉,黄继武.语音深度伪造及其检测技术研究进展[J].中国图象图形学报,2024,29(8):2236-2268. 被引量：1
7冉启斌,黄玮.合成语音与自然语音嗓音的声学对比分析——以18种语言为例[J].天津外国语大学学报,2024,31(5):73-87.
8张洁.基于改进FCN和PSC的语言学习对话系统语音去噪及增强方法[J].自动化与仪器仪表,2024(11):163-166.
9王珏,李洽楠.AI音频技术在电影对白和音效制作中的应用探究[J].现代电影技术,2024(12):13-21.

1黄喜阳,杜庆治,龙华,邵玉斌.基于MFCC特征融合的语音情感识别算法[J].陕西理工大学学报（自然科学版）,2023,39(4):17-25. 被引量：4
2庄韵怡,欧阳莉.情感体验下的节庆礼品包装研究[J].湖南包装,2023,38(3):10-12. 被引量：1
3章桦.幼儿游戏活动中融入民间童谣的策略研究[J].求知导刊,2024(13):122-124.
4马正规.入经典之门闻古韵之香——小学语文文言文教学实践分析[J].进展,2024(2):143-145.
5郭海霞.高中语文古诗词教学优化策略[J].中文科技期刊数据库（引文版）教育科学,2024(8):0084-0087.
6王佳怡.试论现代舞身体意识与情感表现力的培养方法[J].东方娱乐周刊,2024(8):0122-0124.
7薛静.古筝艺术表现力的影响因素及其提升策略探析[J].大观（论坛）,2024(5):42-44.
8桂敏,壹图(图片).音乐团辅,天开启身心健康之旅[J].中老年保健,2024(7):50-51.
9韩雅凡,陆嘉宁.直感与情味:论是枝裕和“作者电视剧”的艺术特色[J].中国电视,2024(2):104-112.
10高盛祥,杨元樟,王琳钦,莫尚斌,余正涛,董凌.面向域外说话人适应场景的多层级解耦个性化语音合成[J].广西师范大学学报（自然科学版）,2024,42(4):11-21.

计算机系统应用

2024年第9期

浏览历史

内容加载中请稍等...

基于多重互信息约束的高表现力语音转换

参考文献2

二级参考文献3

共引文献9

相关作者

相关机构

相关主题

浏览历史