面向域外说话人适应场景的多层级解耦个性化语音合成

Multi-level Disentangled Personalized Speech Synthesis for Out-of-Domain Speakers Adaptation Scenarios

下载PDF

导出

摘要个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 Personalized speech synthesis aims to generate speech with specific speaker’s characteristics.Traditional approaches often exhibit noticeable timbre disparities when synthesizing speech from unseen speakers,making it challenging to disentangle speaker-specific timbre features.This paper proposes a multi-level disentangled personalized speech synthesis approach designed for out-of-domain speakers.By fusing features at different granularities,the proposed method effectively enhances the performance of synthesizing speech from unseen speakers under zero-resource conditions.This is achieved by utilizing fast Fourier convolution to extract global speaker features,thereby enhancing the model's generalization to unseen speakers and enabling sentence-level speaker decoupling.Additionally,leveraging a speech recognition model,the method decouples speaker features at the phoneme level and captures phoneme-level timbre features through an attention mechanism,achieving phoneme-level speaker disentanglement.Experimental results on the publicly available dataset AISHELL3 demonstrate that the proposed approach achieves a cosine similarity of 0.697 for speaker feature vectors of cross-speaker adaptation,indicating a 6.25%improvement compared with the baseline model.This enhancement shows the method’s capability in modeling timbre features for speech from unseen speakers in cross-speaker adaptation scenarios.

作者高盛祥杨元樟王琳钦莫尚斌余正涛董凌 GAO Shengxiang;YANG Yuanzhang;WANG Linqin;MO Shangbin;YU Zhengtao;DONG Ling(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming Yunnan 650500,China;Yunnan Key Laboratory of Artificial Intelligence(Kunming University of Science and Technology),Kunming Yunnan 650500,China;Yunnan Key Laboratory of Media Convergence(Yunnan Daily Press Group),Kunming Yunnan 650228,China)

机构地区昆明理工大学信息工程与自动化学院云南省人工智能重点实验室(昆明理工大学) 云南省媒体融合重点实验室(云南日报报业集团)

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2024年第4期11-21,共11页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金(62376111,U23A20388,61972186,U21B2027) 云南高新技术产业发展项目(201606) 云南省基础研究计划项目(202001AS070014) 云南省科技人才与平台计划项目(202105AC160018) 云南省媒体融合重点实验室开放课题(220225702) 云南省重点研发计划项目(202303AP140008,202103AA080015)。

关键词语音合成零资源说话人表征域外说话人特征解耦 speech synthesis zero-shot speaker representation out-of-domain speaker feature disentanglement

分类号 TN912.33 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献11

1邱泽宇,屈丹,张连海.基于WaveNet的端到端语音合成方法[J].计算机应用,2019,39(5):1325-1329. 被引量：10
2张小峰,谢钧,罗健欣,杨涛.深度学习语音合成技术综述[J].计算机工程与应用,2021,57(9):50-59. 被引量：14
3张佳琳,买日旦·吾守尔,古兰拜尔·吐尔洪.低资源条件下的语音合成方法综述[J].计算机工程与应用,2023,59(15):1-16. 被引量：1
4孙志宏,叶焱,刘太君,许高明.基于迁移学习的自适应语音合成[J].数据通信,2021(5):47-51. 被引量：3
5王智,刘银华.基于深度学习的中文情感语音合成方法[J].自动化与仪器仪表,2022(9):10-15. 被引量：4
6李建文,王咿卜.函数拟合实现带声调的语音合成[J].计算机应用与软件,2022,39(9):193-200. 被引量：2
7李嘉欣,张连海,李宜亭.基于音色一致的语音克隆说话人特征提取方法[J].信号处理,2023,39(4):719-729. 被引量：1
8徐志航,陈博,张辉,俞凯.小数据下的音素级别说话人嵌入的语音合成自适应方法[J].计算机学报,2022,45(5):1003-1017. 被引量：8
9蒿晓阳,张鹏远.使用变分自编码器的自回归多说话人中文语音合成[J].声学学报,2022,47(3):405-416. 被引量：6
10张雅欣,张连海.一种基于x-vector说话人特征的语音克隆方法[J].信息工程大学学报,2020,21(6):664-669. 被引量：2

二级参考文献41

1井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
2薛健,蔡莲红.一种基于声调规范模型的声调变换方法[J].计算机工程与应用,2005,41(10):40-43. 被引量：2
3凌震华,王仁华.基于统计声学模型的单元挑选语音合成算法[J].模式识别与人工智能,2008,21(3):280-284. 被引量：8
4宋刚,姚艳红.用于汉语单音节声调识别的基频轨迹拟合方法[J].计算机工程与应用,2008,44(29):239-240. 被引量：6
5陈明义,党培霞.基于情感基音模板的情感语音合成[J].中南大学学报（自然科学版）,2010,41(6):2258-2263. 被引量：4
6马效敏,郑文思,陈琪.自相关基频提取算法的MATLAB实现[J].西北民族大学学报（自然科学版）,2010,31(4):54-58. 被引量：7
7王硕,Robert Mannell,Philip Newall,董瑞娟,李靖,张华,陈雪清,韩德民.共振峰信息在汉语声调感知中的作用[J].中国耳鼻咽喉头颈外科,2012,19(1):8-11. 被引量：7
8韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：168
9刘霞,王运锋.基于最小二乘法的自动分段多项式曲线拟合方法研究[J].科学技术与工程,2014,22(3):55-58. 被引量：53
10曹梦霞,郑永果,郑尚新.基于归一化自相关的语音基频特征提取[J].信息技术与信息化,2014(2):49-51. 被引量：4

共引文献41

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
2杨国庆,黄锐,李健,吕俊涛,杜修明.智能服务机器人语音交互的设计与实现[J].科技视界,2020,0(9):129-131. 被引量：6
3陈小东,宋文爱,刘晓峰.基于LPCNet的语音合成方法研究[J].计算机与数字工程,2020,48(5):1143-1147. 被引量：3
4王兴宝,雷琴辉,梅林海,张亚,邢猛.汽车语音交互技术发展趋势综述[J].汽车文摘,2021(2):9-15. 被引量：8
5魏伟华.语音合成技术综述及研究现状[J].软件,2020,41(12):214-217. 被引量：8
6姑丽斯坦·奥布力喀斯木,帕力旦·吐尔逊,艾斯卡尔·艾木都拉.不同粒度嵌入单元的端到端语音合成技术研究[J].现代计算机,2021,27(24):14-20. 被引量：1
7刘权,徐伟,李深安.汽车智能语音发展趋势:从被动到主动的交互升级[J].汽车电器,2021(10):5-8. 被引量：5
8杨海涛,王华朋,楚宪腾,牛瑾琳,张琨瑶.基于深度卷积神经网络的伪造语音检测[J].警察技术,2022(1):33-36. 被引量：2
9张悦,朱利,练倩倩,韩冷,刘丽,张立肖.人工智能即将催生的心理战变革及启示[J].国防科技,2022,43(2):111-117. 被引量：1
10蒿晓阳,张鹏远.使用变分自编码器的自回归多说话人中文语音合成[J].声学学报,2022,47(3):405-416. 被引量：6

1李卓璋,许柏炎,蔡瑞初,郝志峰.说话人感知的交叉注意力说话人提取网络[J].广东工业大学学报,2024,41(3):91-101.
2欧阳映辉,张槿,袁蓉.基于转速跟踪预处理和CNN的水力测功器轴承故障诊断方法[J].湖南工业大学学报,2024,38(6):79-85.
3范涛,詹旭.基于自适应GMM阶数与混合特征的说话人识别研究[J].四川轻化工大学学报（自然科学版）,2024,37(4):75-83.
4李菲,苏兆品,王年松,杨波,张国富.基于Group-Res2Block的智能合成语音说话人确认方法[J].应用科学学报,2024,42(4):709-722.
5陈铭,陈雪勤.使用全局自注意Teager能量倒谱系数检测重放欺骗语音[J].声学学报,2024,49(5):1122-1130.

广西师范大学学报（自然科学版）

2024年第4期

浏览历史

内容加载中请稍等...

面向域外说话人适应场景的多层级解耦个性化语音合成

参考文献11

二级参考文献41

共引文献41

相关作者

相关机构

相关主题

浏览历史