基于卷积非负矩阵分解的语音转换方法被引量：12

Voice Conversion Based on Convolutive Nonnegative Matrix Factorization

下载PDF

导出

摘要为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法。卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性。利用这一特性,在训练阶段,通过卷积非负矩阵分解从训练数据中提取源说话人和目标说话人相匹配的时频基。在转换阶段,通过时频基替换实现对源说话人语音的转换。相对于传统方法,本方法能够更好地保存和转换语音帧间相关性。实验仿真及主、客观评价结果表明,与基于高斯混合模型、状态空间模型的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度。 In order to fully consider the inter-frame correlation in voice conversion, a voice con- version method based on convolutive nonnegative matrix factorization is proposed. The person- al characteristics and inter-frame correlation in voice can be well preserved in the time-frequen-cy bases obtained from convolutive nonnegative matrix factorization. With this feature, during the training phase of voice conversion, the matching time-frequency bases of source and target speakers can be extracted from training data through convolutive nonnegative matrix factoriza-tion. Then in the conversion phase, the voice of source speaker is converted through time-fre-quency bases substitution. Compared with traditional methods, the inter-frame correlation in voice can be better preserved and converted in the proposed method. Experimental results using objective and subjective evaluations show that the proposed method outperforms the methods based on Gaussian mixture model and the state space model in the view of both speech quality and conversion similarity to the target speech.

作者孙健张雄伟曹铁勇杨吉斌孙新建

机构地区解放军理工大学通信工程学院解放军理工大学指挥自动化学院

出处《数据采集与处理》 CSCD 北大核心 2013年第2期141-148,共8页 Journal of Data Acquisition and Processing

基金国家自然科学基金(61072042)资助项目解放军理工大学预先研究基金(20110205 20110211)资助项目

关键词语音转换卷积非负矩阵分解时频基 voice conversion convolutive nonnegative matrix factorization time-frequency ba-ses

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Stylianou Y. Voice transformation: a survey [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. China: IEEE, 2009: 3585- 3588.
2Abe M, Nakamura S, Shikano K, et al. Voice con version through vector quantization [C]//IEEE In ternational Conference on Acoustics, Speech and Sig nal Processing. Seattle, Washington: IEEE, 1988 655-658.
3Stylianou Y, Cappe O, Moulines E. Continuous probabilistic transform for voice conversion [J].IEEE Transactions on Speech and Audio Processing, 1998, 6(2): 131-142.
4岳振军,邹翔,王浩.基于隐马尔可夫模型和高斯混合模型结合的声音转换方法[J].数据采集与处理,2009,24(3):285-289. 被引量：5
5Yamagishi J, Kobayashi T, Nakano Y, et al. Analy- sis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adapta- tion algorithm [J]. IEEE Transactions on Audio, Speech and Language Processing, 2009, 17(1): 66- 83.
6Erro D, Moreno A, Bonafonte A. Voice conversion based on weighted frequency warping[J]. IEEE Transactions on Audio, Speech and Language Pro- cessing, 2010, 18(5): 922-931.
7双志伟,张世磊,秦勇.语音转换分析及相似度改进[J].清华大学学报（自然科学版）,2009(S1):1408-1412. 被引量：3
8Desai S, Black A W, Yegnanarayana B, et al. Spec- tral mapping using artificial neural networks for voice conversion [J]. IEEE Transactions on Audio, Speech and Language Processing, 2010, 18(5): 954-964.
9Duxans H, Bonafonte A, Kain A, et al. Including dynamic and phonetic information in voice conversion systems [C]//8th International Conference on Spo- ken Language Processing. Jeju Island, Korea: [s. n. ], 2004: 5-8.
10Toda T, Black A W, Tokuda K. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory [J]. IEEE Transactions on Au- dio, Speech and Language Processing, 2007, 15 (8): 2222-2235.

二级参考文献48

1岳振军,王浩,张雄伟.基于正弦谐波模型和BP神经网络的语音变换算法及实现[J].信号处理,2005,21(z1):208-211. 被引量：7
2左国玉,刘文举,阮晓钢.声音转换技术的研究与进展[J].电子学报,2004,32(7):1165-1172. 被引量：32
3李波,王成友,蔡宣平,张尔扬.LPC与LSF转换算法的比较研究[J].信号处理,2004,20(5):521-524. 被引量：1
4Abe M,Nakamura S,Shikano K,et al. Voice conversion through vector quantization[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. New York:IEEE,1988..655- 658.
5Stylianou Y,Cappe O, Moulines E. Continuos probabilistic transform for voice conversion[J]. IEEE Speech and Audio Processing, 1998, 6(20): 131- 142.
6Lee Ki-Seung. Statistical approach for voice personality transformation [J]. IEEE Transactions on Au- dio, Speech and Language Processing, 2007, 15 (2) :641-651.
7Chu M, Lin H, Jie P X,et al. Voice conversion between female and male in a TD-PSOLA based Chi- nese TTS system[C]//Proceedings of the 5th International Conference on Spoken Language Processing. Singapore:[s. n.],1998,26:113-117.
8宋巍.基于支持向量回归的说话人变换技术[D].南京:南京理工大学通信工程学院,2007.
9ABE M, NAKAMURA S, SHIKANO K, KUWABARA H. Voice conversion through vector quantization[ A ]. Proceedings of International Conference on Acoustics, Speech, and Signal Processing[ C]. New York: IEEE Press, 1988. 655 - 658.
10SHIKANO K, NAKAMURA S, ABE M. Speaker adaptation and voice conversion by codebook mapping [ A ]. Proceedings of IEEE International Symposium on Circuits and Systems [C] .New York: IEEE Press, 1991.594 - 597.

共引文献8

1马振,张雄伟,杨吉斌.基于语音个人特征信息分离的语音转换方法研究[J].信号处理,2013,29(4):513-519. 被引量：4
2马振,张雄伟,杨吉斌,徐玉龙.基于稀疏卷积非负矩阵分解的语音转换方法研究[J].军事通信技术,2013,34(2):1-7.
3姚绍芹,张玲华.基于GMM和ANN混合模型的语音转换方法[J].数据采集与处理,2014,29(2):227-231. 被引量：1
4张玲华,姚绍芹,解伟超.基于自适应粒子群优化径向基函数神经网络的语音转换[J].数据采集与处理,2015,30(2):336-343. 被引量：8
5李海燕,王程程,徐宁,胡芳.基于混合码书映射的高效语音转换方法[J].数据采集与处理,2016,31(3):512-524. 被引量：2
6车滢霞,俞一彪.约束条件下的结构化高斯混合模型及非平行语料语音转换[J].电子学报,2016,44(9):2282-2288. 被引量：3
7付兆婷.基于人工智能的音频事件分类系统研究[J].电声技术,2024,48(3):45-47.
8章子旭,简志华.采用双重交换表示分离的任意说话人语音转换[J].电子学报,2024,52(6):2141-2150.

同被引文献117

1双志伟,张世磊,秦勇.语音转换分析及相似度改进[J].清华大学学报（自然科学版）,2009(S1):1408-1412. 被引量：3
2简志华,杨震.基于混合线性变换的语声转换算法[J].电子与信息学报,2007,29(7):1700-1702. 被引量：2
3Rowels S, Saul L. Nonlinear dimensionatity reduc- tion by locally linear embedding[J]. Science, 2000,290(5500) .. 2323-2326.
4Tenenbaum J, Silva V, Langford J. A global geo- metric framework for nonlinear dimensionality reduc- tion[J]. Science, 2000,290(5500) :2319-2323.
5He X, Niyogi P. Locality preserving projections [C]//Advances in Neural Information Processing Systems. Whistler, British Columbia, Canada: MIT Press, 2003,16:234-241.
6Belkin M, Niyogi P. Laplacian eigenmaps and spec- tral techniques for embedding and clustering[C]// Advances in Neural Information Processing Systems. Vancouver, British Columbia, Canada.. MIT Press, 2001,14:585-591.
7Guillamet D, Schiele B, Vitria J. Analyzing non-neg- ative matrix faetorization for image classification [C]//Proceedings of 16th International Conference on Pattern Recognition. Quebec, Canada: IEEE Computer Society, 2002,2 : 116-1 19.
8Shahnaz F, Berry M, Pauca V, et at. Document clustering using nonnegative matrix factorization[J]. Information Processing ~ Management, 2006, 42 (2) :373-386.
9Zhang S, Wang W, Ford J, et al. Learning from in- complete ratings using non-negative matrix factoriza- tion[C]//Proceedings of 6th SIAM Conference on Data Mining. Bethesda, MD, USA: SIAM, 2006.
10Bucak S, Gunsel B. Video content representation by incremental non-negative matrix factorization[C]// Proceedings International Conference on Image Pro- cessing. San Autonio, Texas, USA.. IEEE, 2007,2: 113-116.

引证文献12

1马振,张雄伟,杨吉斌.基于语音个人特征信息分离的语音转换方法研究[J].信号处理,2013,29(4):513-519. 被引量：4
2马振,张雄伟,杨吉斌,徐玉龙.基于稀疏卷积非负矩阵分解的语音转换方法研究[J].军事通信技术,2013,34(2):1-7.
3高新波,王笛,王秀美.一种潜在信息约束的非负矩阵分解方法[J].数据采集与处理,2014,29(1):11-18. 被引量：2
4姚绍芹,张玲华.基于GMM和ANN混合模型的语音转换方法[J].数据采集与处理,2014,29(2):227-231. 被引量：1
5张立伟,贾冲,张雄伟,闵刚,曾理.稀疏卷积非负矩阵分解的语音增强算法[J].数据采集与处理,2014,29(2):259-264. 被引量：13
6张倩敏,陶亮,周健,王华彬.非对称代价函数的稀疏卷积非负矩阵分解方法[J].信号处理,2015,31(1):95-102.
7李海燕,王程程,徐宁,胡芳.基于混合码书映射的高效语音转换方法[J].数据采集与处理,2016,31(3):512-524. 被引量：2
8林静,杨继臣,张雪源,李新超.一种基于指纹因子的鲁棒音频检索方法[J].数据采集与处理,2016,31(5):1020-1027. 被引量：3
9路成,田猛,周健,王华彬,陶亮.L_(1/2)稀疏约束卷积非负矩阵分解的单通道语音增强方法[J].声学学报,2017,42(3):377-384. 被引量：10
10邓叶勋,赵晖.基于非负矩阵分解的情感语音基频转换研究[J].计算机工程,2018,44(5):256-261. 被引量：1

二级引证文献45

1潘梦鹞,吕小勇,陈少伟,郇锐铁,王锋.基于AI智能语音技术线上教学的创新与实践[J].创新创业理论研究与实践,2022(24):170-173. 被引量：2
2胡永刚,张雄伟,邹霞,张立伟,郑云飞.贝叶斯非负矩阵分解语音增强的优化算法[J].解放军理工大学学报（自然科学版）,2015,16(1):1-6. 被引量：2
3张玲华,姚绍芹,解伟超.基于自适应粒子群优化径向基函数神经网络的语音转换[J].数据采集与处理,2015,30(2):336-343. 被引量：8
4胡永刚,张雄伟,邹霞,闵刚,郑云飞,李莉,石佳佳.改进的非负矩阵分解语音增强算法[J].信号处理,2015,31(9):1117-1123. 被引量：7
5胡永刚,张雄伟,邹霞,闵刚,张立伟,王健.ADMM稀疏非负矩阵分解语音增强算法[J].计算机工程与应用,2016,52(3):108-112. 被引量：2
6邹采荣,梁瑞宇,谢跃.数字助听器语音处理算法研究进展与展望[J].数据采集与处理,2016,31(2):242-251. 被引量：5
7孙同晶,贺锦鹏,谷雨.基于稀疏分解的水下目标回波信号处理方法[J].数据采集与处理,2016,31(2):282-288. 被引量：3
8杜烨宇,陶大鹏,梁虹,林旭.基于局部自适应核回归的仪表定位方法[J].数据采集与处理,2016,31(3):490-501. 被引量：1
9周海平,黄凑英,刘妮,周洪波.基于评分预测的协同过滤推荐算法[J].数据采集与处理,2016,31(6):1234-1241. 被引量：8
10韩伟,张雄伟,周星宇,白崧廷,闵刚.联合优化深度神经网络和约束维纳滤波的单通道语音增强方法[J].计算机应用研究,2017,34(3):706-709. 被引量：6

1徐毅,刘兵,孙铭涛.基于全高清数字安防系统的安全保卫综合服务平台[J].科学大众（智慧教育）,2015(4).
2范亚昕.从绵阳看后转换时代有线网的运营与发展[J].中国数字电视,2009(2):74-79.
3信通院发布互联网发展趋势报告:互联网全面进入移动时代[J].移动通信,2017,41(1):16-16. 被引量：1
4王立荣,李恩光.6-DOF电-气伺服并联机器人动画控制中的实体转换[J].液压气动与密封,2000(6):15-17. 被引量：3
5吴华,徐甜.机器翻译中源语分析的研究与探讨[J].安阳工学院学报,2006,5(2):138-140. 被引量：3
6董慧,赵霞.基于语义网的本体转换模型研究[J].情报学报,2006,25(1):36-42. 被引量：13
7夏芳.HDF5存储机制研究及应用[J].中国工程物理研究院科技年报,2004(1):334-335.
8邢玉娟,李恒杰,高翔.基于PCS-PCA分类器和支持向量机的说话人确认[J].自动化与仪器仪表,2012(5):217-218.
9吴米佳,叶海明,计荣荣,张淦锋,张俭清,潘成程.智能变电站遥信信号传输丢失缺陷原因分析及解决方案[J].华东科技（学术版）,2015,0(2):213-214.
10孙俊,戴蓓蒨,张剑.基于基元段特征和GMM的源-目标说话人F_0～t转换[J].信号处理,2007,23(2):283-287.

数据采集与处理

2013年第2期

浏览历史

内容加载中请稍等...

基于卷积非负矩阵分解的语音转换方法被引量：12

参考文献18

二级参考文献48

共引文献8

同被引文献117

引证文献12

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于卷积非负矩阵分解的语音转换方法 被引量：12

参考文献18

二级参考文献48

共引文献8

同被引文献117

引证文献12

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于卷积非负矩阵分解的语音转换方法被引量：12