基于语音个人特征信息分离的语音转换方法研究被引量：4

A speech conversion method based on the separation of speaker-specific characteristics

下载PDF

导出

摘要本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K-均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。 This paper aims to study independent and complete characterization of speaker-specific voice characteristics. Based on this, from the point of information separation, we will conduct a method on the separation between w）ice characteristics and linguistic content in speech, and carry out voice conversion. In this paper, we take full account of the K-SVD algorithm which can train the dictionary contains the personal characteristics and inter-frame correlation of voice. With this feature, the dietionary which contains the personal characteristics is extracted from training data through the K-SVD algo- rithm. Then we use the trained dictionary and other content information to reconstruct the target speech. Compared to tradi- tional methods, the personal characteristics can be better preserved based on the proposed method through the sparse nature of voice and the proposed method can easily solve the problems encountered in feature mapping methods as well as the voice conversion improvements are to be expected. Experimental results using subjective evaluations show that the proposed meth- od outperforms the Gaussian Mixture Model and Artificial Neural Network based methods in the view of both speech quality and conversion similarity with the better noise immunity to the target voice.

作者马振张雄伟杨吉斌

机构地区解放军理工大学通信工程学院解放军理工大学指挥自动化学院

出处《信号处理》 CSCD 北大核心 2013年第4期513-519,共7页 Journal of Signal Processing

基金江苏省自然科学基金项目(BK2012510) 解放军理工大学预研项目(20110211)

关键词语音转换语音个人特征信息分离 K—SVD Voice Conversion Speaker-specific characteristics Information separation K-SVD

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1孙健,张雄伟,曹铁勇,杨吉斌,孙新建.基于卷积非负矩阵分解的语音转换方法[J].数据采集与处理,2013,28(2):141-148. 被引量：12
2双志伟,张世磊,秦勇.语音转换分析及相似度改进[J].清华大学学报（自然科学版）,2009(S1):1408-1412. 被引量：3
3ZHAO Nan XU Xin YANG Yi.Sparse Representations for Speech Enhancement[J].Chinese Journal of Electronics,2011,20(2):268-272. 被引量：9

二级参考文献29

1双志伟,张世磊,秦勇.语音转换分析及相似度改进[J].清华大学学报（自然科学版）,2009(S1):1408-1412. 被引量：3
2Stylianou Y. Voice transformation: a survey [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. China: IEEE, 2009: 3585- 3588.
3Abe M, Nakamura S, Shikano K, et al. Voice con version through vector quantization [C]//IEEE In ternational Conference on Acoustics, Speech and Sig nal Processing. Seattle, Washington: IEEE, 1988 655-658.
4Stylianou Y, Cappe O, Moulines E. Continuous probabilistic transform for voice conversion [J].IEEE Transactions on Speech and Audio Processing, 1998, 6(2): 131-142.
5Yamagishi J, Kobayashi T, Nakano Y, et al. Analy- sis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adapta- tion algorithm [J]. IEEE Transactions on Audio, Speech and Language Processing, 2009, 17(1): 66- 83.
6Erro D, Moreno A, Bonafonte A. Voice conversion based on weighted frequency warping[J]. IEEE Transactions on Audio, Speech and Language Pro- cessing, 2010, 18(5): 922-931.
7Desai S, Black A W, Yegnanarayana B, et al. Spec- tral mapping using artificial neural networks for voice conversion [J]. IEEE Transactions on Audio, Speech and Language Processing, 2010, 18(5): 954-964.
8Duxans H, Bonafonte A, Kain A, et al. Including dynamic and phonetic information in voice conversion systems [C]//8th International Conference on Spo- ken Language Processing. Jeju Island, Korea: [s. n. ], 2004: 5-8.
9Toda T, Black A W, Tokuda K. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory [J]. IEEE Transactions on Au- dio, Speech and Language Processing, 2007, 15 (8): 2222-2235.
10Zen H, Nankaku Y, Tokuda K. Continuous stochastic feature mapping based on trajectory HMMs [J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(2): 417-430.

共引文献20

1马振,张雄伟,杨吉斌.一种基于K-SVD的说话人识别方法[J].计算机工程与应用,2012,48(34):112-115. 被引量：2
2孙健,张雄伟,曹铁勇,杨吉斌,孙新建.基于卷积非负矩阵分解的语音转换方法[J].数据采集与处理,2013,28(2):141-148. 被引量：12
3马振,张雄伟,杨吉斌,徐玉龙.基于稀疏卷积非负矩阵分解的语音转换方法研究[J].军事通信技术,2013,34(2):1-7.
4黄玲,李琳,王薇,易才钦,郭东辉.基于Sparse K-SVD学习字典的语音增强方法[J].厦门大学学报（自然科学版）,2014,53(1):36-40. 被引量：9
5高新波,王笛,王秀美.一种潜在信息约束的非负矩阵分解方法[J].数据采集与处理,2014,29(1):11-18. 被引量：2
6姚绍芹,张玲华.基于GMM和ANN混合模型的语音转换方法[J].数据采集与处理,2014,29(2):227-231. 被引量：1
7张立伟,贾冲,张雄伟,闵刚,曾理.稀疏卷积非负矩阵分解的语音增强算法[J].数据采集与处理,2014,29(2):259-264. 被引量：13
8张倩敏,陶亮,周健,王华彬.非对称代价函数的稀疏卷积非负矩阵分解方法[J].信号处理,2015,31(1):95-102.
9胡正平,高红霄,赵淑欢.基于低秩分解的联合动态稀疏表示多观测样本分类算法[J].电子学报,2015,43(3):440-446. 被引量：3
10李海燕,王程程,徐宁,胡芳.基于混合码书映射的高效语音转换方法[J].数据采集与处理,2016,31(3):512-524. 被引量：2

同被引文献22

1贾冲,孙浩海,吴其前,张雄伟.语音音质客观评价系统的实现[J].解放军理工大学学报（自然科学版）,2004,5(3):33-37. 被引量：2
2徐俊,蔡莲红.面向情感转换的层次化韵律分析与建模[J].清华大学学报（自然科学版）,2009(S1):1274-1277. 被引量：7
3简志华,杨震.基于混合线性变换的语声转换算法[J].电子与信息学报,2007,29(7):1700-1702. 被引量：2
4申毅,简志华,杨震.改进的GMM模型语声转换系统[J].南京邮电大学学报（自然科学版）,2007,27(5):11-15. 被引量：2
5简志华,杨震.语声转换技术发展及展望[J].南京邮电大学学报（自然科学版）,2007,27(6):88-94. 被引量：3
6双志伟,Raimo Bakis,秦勇.IBM Voice Conversion Systems for 2007 TC-STAR Evaluation[J].Tsinghua Science and Technology,2008,13(4):510-514. 被引量：2
7李力,俞一彪.采用超音段韵律特征联合短时频谱的语音转换[J].信号处理,2012,28(2):289-294. 被引量：3
8孙新建,张雄伟,杨吉斌,曹铁勇,孙健.基于隐变量模型的语音转换方法研究[J].信号处理,2012,28(3):344-351. 被引量：2
9简志华,王向文.一种用于语音转换的区域最近邻迭代训练算法[J].电子与信息学报,2012,34(9):2091-2096. 被引量：1
10贾义鹏,吕庆,尚岳全.基于粒子群算法和广义回归神经网络的岩爆预测[J].岩石力学与工程学报,2013,32(2):343-348. 被引量：102

引证文献4

1王民,杨秀峰,要趁红.基于PSO优化GRNN的语音转换方法[J].计算机工程与科学,2018,40(4):752-756.
2黄国捷,金慧,俞一彪.增强变分自编码器做非平行语料语音转换[J].信号处理,2018,34(10):1246-1251. 被引量：3
3张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇.语音转换技术研究现状及展望[J].数据采集与处理,2019,34(5):753-770. 被引量：9
4周健,罗翔宇,王华彬,郑文明,陶亮.面向风格多样化的多对多语音情感转换[J].声学学报,2024,49(6):1297-1303.

二级引证文献12

1张显炀,刘刚,马霄龙,陈健,李兆麟.基于变分自编码的海面舰船轨迹预测算法[J].计算机应用研究,2020,37(S01):122-125. 被引量：3
2潘梦鹞,吕小勇,陈少伟,郇锐铁,王锋.基于AI智能语音技术线上教学的创新与实践[J].创新创业理论研究与实践,2022(24):170-173. 被引量：2
3鲍薇,温正棋.声音伪造与防伪检测技术研究[J].信息技术与标准化,2020(1):54-58. 被引量：1
4张显炀,朱晓宇,林浩申,刘刚,安喜彬.基于高斯混合-变分自编码器的轨迹预测算法[J].计算机工程,2020,46(7):50-57. 被引量：9
5李智诚,张云翔.面向电力行业的智能会议录音回溯系统[J].现代计算机,2020,26(21):37-39. 被引量：1
6张雄伟,李嘉康,孙蒙,郑琳琳.语音欺骗检测方法的研究现状及展望[J].数据采集与处理,2020,35(5):807-823. 被引量：10
7郑琳琳,张雄伟,孙蒙,李嘉康,张星昱.基于i⁃vector的电子伪装语音鲁棒还原方法研究[J].数据采集与处理,2020,35(5):880-891. 被引量：1
8王超,俞一彪.矢量量化正则变分自编码器做非平行语料语音转换[J].信号处理,2021,37(7):1339-1345. 被引量：4
9张雄伟,张星昱,孙蒙,邹霞.说话人验证系统攻击方法的研究现状及展望[J].数据采集与处理,2021,36(5):831-849. 被引量：3
10杨帅,乔凯,陈健,王林元,闫镔.语音合成及伪造、鉴伪技术综述[J].计算机系统应用,2022,31(7):12-22. 被引量：9

1马振,张雄伟,杨吉斌.一种基于K-SVD的说话人识别方法[J].计算机工程与应用,2012,48(34):112-115. 被引量：2
2杭州VOD用户个人特征与点播偏好关系分析[J].广告大观（媒介版）,2010(1):111-111.
3张海锋,胡春海.压缩感知重构的传感器目标定位研究[J].激光杂志,2016,37(11):128-131. 被引量：4
4汪晋宽,王旭,许鹏.高精度OFDM信道估计算法[J].东北大学学报（自然科学版）,2011,32(1):32-35. 被引量：3
5王蕾,张友纯,周燕.应用VQ的说话人识别系统的改进[J].中国科教博览,2004(11):56-57.
6邱峰,董平,张宏科.一体化网络中支持寻呼的移动性管理机制[J].北京交通大学学报,2011,35(2):36-41. 被引量：3
7高波,徐忠伟,王星,程嗣怡.一种利用角度信息分离交叠信号的方法[J].西北大学学报（自然科学版）,2013,43(2):224-228.
8张继荣,王文斌,苗国防.基于LEACH协议的簇头辅助路由算法[J].西安邮电大学学报,2014,19(3):38-42. 被引量：1
9彭觅,王兴.新型密码-DQ密码的设计[J].电子设计工程,2009,17(2):95-97.
10储彬彬,向晓卒.基于Contourlet的SSIM图像融合质量评价方法[J].航空电子技术,2010,41(3):10-14.

信号处理

2013年第4期

浏览历史

内容加载中请稍等...

基于语音个人特征信息分离的语音转换方法研究被引量：4

参考文献3

二级参考文献29

共引文献20

同被引文献22

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于语音个人特征信息分离的语音转换方法研究 被引量：4

参考文献3

二级参考文献29

共引文献20

同被引文献22

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于语音个人特征信息分离的语音转换方法研究被引量：4