矢量量化正则变分自编码器做非平行语料语音转换被引量：4

Vector Quantization Regularized Variational Autoencoders for Non-parallel Voice Conversion

下载PDF

导出

摘要基于矢量量化变分自编码器(Vector Quantized Variational Autoencoder,VQVAE)的语音转换系统是国内外语音转换领域研究的一大热点,但是其较差的转换音质限制了模型的应用。本文在VQVAE的基础上提出一种改进的矢量量化正则变分自编码器(Vector Quantization Regularized Variational Autoencoder,VQ-REG-VAE)。在训练时,矢量量化退化为正则化项,通过矢量量化的正则约束让编码器学习生成说话人无关的语义特征,同时让解码器学习将说话人特征融合到语义特征中。在转换时,可以去掉矢量量化这一正则化项,通过编码器和解码器就能实现语音转换。由于转换时没有进行矢量量化,语义特征信息得以更好保留。客观和主观实验都表明:基于VQ-REG-VAE模型的转换语音在不降低相似度的前提下,音质比VQVAE模型有显著的提升。 The vector quantized variational autoencoder(VQVAE)based voice conversion system is a hot spot in voice conversion area,but the poor quality of converted speeches limits its wide use.To address this problem,this paper proposes an improved model called vector quantization regularized variational autoencoder(VQ-REG-VAE).During training,vector quantization works as the regularization term.Through the regularization of vector quantization,the encoder learns to generate speaker-independent linguistic features while the decoder learns to fuse the speaker features into linguistic features.During conversion,voice conversion can be realized through the encoder and the decoder.Since vector quantization is not used during the conversion,more linguitic information can be preserved.The objective and subjective experiments have shown that,compared with VQVAE model,VQ-REG-VAE model achieved significant improvement in speech quality and comparable results in speaker similarity.

作者王超俞一彪 WANG Chao;YU Yibiao(School of Electronic and Information Engineering,Soochow University,Suzhou,Jiangsu 215006,China)

机构地区苏州大学电子信息学院

出处《信号处理》 CSCD 北大核心 2021年第7期1339-1345,共7页 Journal of Signal Processing

关键词语音转换矢量量化矢量量化正则变分自编码器 voice conversion vector quantization vector quantization regularized variational autoencoder

分类号 TN912.33 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1黄国捷,金慧,俞一彪.增强变分自编码器做非平行语料语音转换[J].信号处理,2018,34(10):1246-1251. 被引量：3

二级参考文献4

1李力,俞一彪.采用超音段韵律特征联合短时频谱的语音转换[J].信号处理,2012,28(2):289-294. 被引量：3
2孙新建,张雄伟,杨吉斌,曹铁勇,孙健.基于隐变量模型的语音转换方法研究[J].信号处理,2012,28(3):344-351. 被引量：2
3马振,张雄伟,杨吉斌.基于语音个人特征信息分离的语音转换方法研究[J].信号处理,2013,29(4):513-519. 被引量：3
4宋鹏,王浩,赵力.采用模型自适应的语音转换方法[J].信号处理,2013,29(10):1294-1299. 被引量：2

共引文献2

1张显炀,刘刚,马霄龙,陈健,李兆麟.基于变分自编码的海面舰船轨迹预测算法[J].计算机应用研究,2020,37(S01):122-125. 被引量：3
2张显炀,朱晓宇,林浩申,刘刚,安喜彬.基于高斯混合-变分自编码器的轨迹预测算法[J].计算机工程,2020,46(7):50-57. 被引量：9

同被引文献43

1王文益,伊雪.基于改进语音存在概率的自适应噪声跟踪算法[J].信号处理,2020,36(1):32-41. 被引量：8
2夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：11
3赵正平.GaN微电子学的新进展(续)[J].半导体技术,2020,0(2):89-98. 被引量：1
4陈哲怀,郑文露,游永彬,钱彦旻,俞凯.标签同步解码算法及其在语音识别中的应用[J].计算机学报,2019,42(7):1511-1523. 被引量：9
5章蓉,陈谊,张梦录,孟可欣.高维数据聚类可视分析方法综述[J].图学学报,2020,41(1):44-56. 被引量：14
6雷娅,方勇,张立明.基于Takenaka-Malmquist系的语音信号压缩与降噪方法[J].上海大学学报（自然科学版）,2020,26(1):33-46. 被引量：3
7杜伟健,陈云霁,支天,吴林阳,陈小兵,庄毅敏.QingLong:一种基于常变量异步拷贝的神经网络编程模型[J].计算机学报,2020,43(4):587-599. 被引量：3
8张青博,王斌,崔宁宁,宋晓旭,秦婧.基于注意力机制的规范化矩阵分解推荐算法[J].软件学报,2020,31(3):778-793. 被引量：24
9熊菊霞,吴尽昭.异构复杂信息网络敏感数据流动态挖掘[J].计算机工程与科学,2020,42(4):628-633. 被引量：17
10张绘娟,张达敏,闫威,陈忠云,辛梓芸.基于改进阈值函数的小波变换图像去噪算法[J].计算机应用研究,2020,37(5):1545-1548. 被引量：43

引证文献4

1张添添,王婧.基于At-LSTM模型的音/视频双流语音识别算法仿真[J].计算机仿真,2023,40(1):251-254. 被引量：3
2张建明,彭锦涛,贾洪杰,毛启容.基于条件变分自编码器的端到端情感语音合成方法[J].信号处理,2023,39(4):678-687. 被引量：4
3郭红建,陈一飞,梅轶群.基于高维聚类的文本大数据挖掘算法仿真[J].计算机仿真,2023,40(6):499-503. 被引量：2
4王翠英.基于深度学习的合成语音转换问题研究[J].自动化与仪器仪表,2023(7):196-200. 被引量：2

二级引证文献11

1党浩予.基于Python爬虫技术的网页内容文本大数据提取方法研究[J].电脑与电信,2023(8):90-93.
2王勇,王夏莛,冯威威,史治国.面向毫米波雷达手势分类的RDI数据增强方法[J].信号处理,2023,39(11):2003-2012.
3王鲁娜,杜洪波,朱立军.基于SVM的流形正则堆叠胶囊自编码器优化算法[J].湖北民族大学学报（自然科学版）,2023,41(4):471-478.
4宁晓虹.传感器网络高维异常数据流动态挖掘算法设计[J].传感器世界,2023,29(11):34-39. 被引量：1
5董次浩,陈雷鸣,黄子凌,朱宜昌,仇家康,刘尚儒.基于图持续学习的时序数据分析[J].计算机系统应用,2024,33(2):188-197.
6张丽群,薛世峰.基于ELM的控制器算法在机器人触觉识别和语音交互中的应用[J].自动化与仪器仪表,2023(12):161-164. 被引量：1
7郭凯丽,王建英.非平稳强噪声环境中的音频信号端点检测系统[J].现代电子技术,2024,47(10):18-22.
8李发娟.智能声纹识别技术在高校英语口语考试系统中的应用研究[J].电声技术,2024,48(5):28-30.
9刘俊丽.基于LSTM的语音字幕转换技术[J].电声技术,2024,48(6):47-49.
10舒蜜,龙荣平.基于模块化的山洪灾害预警音频数字功放系统设计[J].气象研究与应用,2024,45(2):83-87.

1林金花,马林.基于稠密变形场能量优化的非刚性在线体积重建方法[J].电子学报,2021,49(5):936-943.
2孙彦楠,夏秀渝.基于深度神经网络的关键词识别系统[J].计算机系统应用,2018,27(5):41-48. 被引量：7
3张德浩,王佳松,陈禹平,王帅.基于VAE-MSGAN网络的复杂细节图像生成方法[J].机电工程技术,2021,50(6):29-33. 被引量：1
4王光艳,高丽萍,黄奕婷,于宝雲.基于STRAIGHT模型和ANN的语音转换方法研究[J].新一代信息技术,2020,3(22):12-18.
5曹宸,刘之洋,郭瑜,夏爽.基于生成对抗网络提高动脉自旋标记图像质量及量化精度分析[J].中华医学杂志,2021,101(23):1772-1777.
6张芸,郑娟.基于变分自编码器的不平衡电信客户流失预测[J].价值工程,2021,40(21):168-170.
7杨飞璠,李晓光,卓力.基于注意力残差编解码网络的动态场景图像去模糊[J].应用光学,2021,42(4):685-690. 被引量：6
8程建刚,毕凤荣,张立鹏,李鑫,杨晓,汤代杰.基于多重注意力卷积神经网络双向门控循环单元的机械故障诊断方法研究[J].内燃机工程,2021,42(4):77-83. 被引量：13
9Limin Zhang,Wenqing Zhao,Shaohui Yuan,Feng Jiang,Xingqi Chen,Yue Yang,Peng Ge,Wei Sun,Xiaobo Ji.Engineering the morphology/porosity of oxygen-doped carbon for sulfur host as lithium-sulfur batteries[J].Journal of Energy Chemistry,2021,30(9):531-545. 被引量：3
10Zhao-Hua Liu,Xu-Dong Meng,Hua-Liang Wei,Liang Chen,Bi-Liang Lu,Zhen-Heng Wang,Lei Chen.A Regularized LSTM Method for Predicting Remaining Useful Life of Rolling Bearings[J].International Journal of Automation and computing,2021,18(4):581-593. 被引量：6

信号处理

2021年第7期

浏览历史

内容加载中请稍等...

矢量量化正则变分自编码器做非平行语料语音转换被引量：4

参考文献1

二级参考文献4

共引文献2

同被引文献43

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

矢量量化正则变分自编码器做非平行语料语音转换 被引量：4

参考文献1

二级参考文献4

共引文献2

同被引文献43

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

矢量量化正则变分自编码器做非平行语料语音转换被引量：4