基于双因子高斯过程动态模型的声道谱转换方法被引量：3

Vocal Tract Spectrum Conversion Using a Two-factor Gaussian Process Dynamic Model

下载PDF

导出

摘要针对作者已经提出的双因子高斯过程隐变量模型(Two-factorGaussianprocesslatentvariablemodel,TF-GPLVM)用于语音转换时未考虑语音的动态特征,并且模型训练时需要估计的参数较多的问题,提出引入隐马尔科夫模型(Hidden Markov model,HMM)对语音动态特征进行建模,并利用HMM隐状态对各帧语音进行关于语义内容的概率软分类,建立了分离精度更高、运算负荷较小的双因子高斯过程动态模型(Two-factor Gaussian process dynamic model,TF-GPDM).基于此模型,设计了一种全新的基于说话人特征替换的语音声道谱转换方案.主、客观实验结果表明,无论是与传统的统计映射和频率弯折转换方法相比,还是与双因子高斯过程隐变量模型方法相比,本文方法都获得了语音质量和转换相似度的提升,以及两项性能的更佳平衡. We developed in a previous work a two-factor Gaussian process latent variable model （TF-GPLVM） to perform spectral conversion using a strategy of speaker characteristics replacement. Despite its improved performance compared with traditional mapping-based methods, the model suffers from two drawbacks： 1） it cannot capture the speech dynamical characteristics, and 2） there is a large number of parameters to estimate. To overcome these two drawbacks, we propose in this paper to combine TF-GPLVM with hidden Markov model （HMM）, and develop an enhanced two-factor Gaussian process dynamic model （TF-GPDM）. In the model, the speech dynamics are modeled by state transition probability of HMM, meanwhile speech frames are categorized into a limited number of phonetic content classes using HMM states. Both subjective and objective evaluations show that, compared with both traditional mapping-based methods, such as Gaussian mixture model （GMM） and FW, and TF-GPLVM based one, the proposed TF-GPDM not only improves the speech quality and identity similarity, but also reaches a better compromise between the two dimensions.

作者孙新建张雄伟杨吉斌曹铁勇钟新毅

机构地区解放军理工大学通信工程学院解放军理工大学指挥信息系统学院

出处《自动化学报》 EI CSCD 北大核心 2014年第6期1198-1207,共10页 Acta Automatica Sinica

基金国家自然科学基金(61072042) 江苏省自然科学基金(BK2012510) 解放军理工大学预先研究基金(20110205 20110211)资助~~

关键词声道谱转换高斯过程隐变量模型双因子模型隐马尔科夫模型语音动态特征 Vocal tract spectrum conversion, Gaussian process latent variable model （GPLVM）, two-factor model,hidden Markov model （HMM）, speech dynamical characteristics

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献33

1Moulines E, Sagisaka Y. Voice conversion: state of the art and perspectives. Special Issue of Speech Communication. The Netherlands, 1995, 16(2): 125-126.
2Furui S. Research of individuality features in speech waves and automatic speaker recognition techniques. Speech Communication, 1986, 5(2): 183-197.
3Abe M, Nakamura S, Shikano K, Kuwabara H. Voice conversion through vector quantization. In: Proceedings of the 1998 IEEE International Conference on Acoustic, Speech, and Signal Processing. New York, USA: IEEE, 1988. 655-658.
4Arslan L M. Speaker transformation algorithm using segmental codebooks (STASC). Speech Communication, 1999, 28(3): 211-226.
5Narendranath M, Murthy H A, Rajendran S, Yegnanarayana B. Transformation of formants for voice conversion using artificial neural networks. Speech Communication, 1995, 16(2): 207-216.
6Guido R C, Vieira L S, Júnior S B, Sanchez F L, Maciel C D, Fonseca E S, Pereira J C. A neural-wavelet architecture for voice conversion. Neurocomputing, 2007, 71(1-3): 174 -180.
7Desai S, Black A W, Yegnanarayana B, Prahallad K. Spectral mapping using artificial neural networks for voice conversion. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(5): 954-964.
8Stylianou Y, Cappé;O, Moulines E. Continuous probabilistic transform for voice conversion. IEEE Transactions on Speech and Audio Processing, 1998, 6(2): 131-142.
9Kain A B. High Resolution Voice Transformation [Ph.D. dissertation], OGI School of Science and Engineering at Oregon Health and Science University, United States, 2001.
10Toda T, Black A W, Tokuda K. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(8): 2222-2235.

同被引文献4

1魏星,周萍.改进型蚁群算法的语音动态规划研究[J].计算机仿真,2011,28(5):402-405. 被引量：7
2杨鸿章.基于蚁群算法特征选择的语音情感识别[J].计算机仿真,2013,30(4):377-381. 被引量：5
3马建红,姬莉霞,张晗.基于动态优化神经网络的非确定语音识别研究[J].计算机测量与控制,2013,21(7):1996-1998. 被引量：1
4周季华,叶春明,盛晓华.基于智能水滴算法置换流水线调度问题的研究[J].计算机科学,2013,40(9):250-253. 被引量：11

引证文献3

1吕敬民.第十册《基础训练5》听说写教学设想[J].小学语文教学,2000(6):55-55.
2宋丽亚,赵国栋,张鹏.关于连续语音识别率优化仿真研究[J].计算机仿真,2016,33(3):395-400. 被引量：4
3陈聪,贺杰,陈佳.混合连接时间/注意力机制端到端语音识别[J].控制工程,2021,28(3):585-591. 被引量：5

二级引证文献9

1冯一帆,姜文涛.基于语音识别的智能书架设计与实现[J].软件导刊,2017,16(5):57-59. 被引量：3
2傅大梅,盛彬.语音识别无线开关控制装置的设计[J].现代电子技术,2017,40(14):33-35. 被引量：14
3刘琼.几种开源英语识别工具包的对比分析[J].计算技术与自动化,2018,37(4):123-127. 被引量：3
4张鹏昊,秦斌.深度强化学习研究进展[J].电脑知识与技术,2021,17(28):104-106. 被引量：1
5谢崇波.一种注意力机制下的空气污染物预测方法[J].自动化与仪器仪表,2022(2):52-56.
6曾丽丽,孟凡月,汤华贝,牛艺晓,汤敏.基于注意力机制的碳酸盐岩储层岩相识别方法[J].测井技术,2022,46(3):294-303. 被引量：1
7孙弘扬,王尚.基于残差门控循环卷积和注意力机制的端到端光学乐谱识别方法[J].计算机与现代化,2022(7):85-90.
8张添添,王婧.基于At-LSTM模型的音/视频双流语音识别算法仿真[J].计算机仿真,2023,40(1):251-254. 被引量：3
9刘雪燕.高噪声背景下舰船指挥舱大词汇量连续语音识别方法[J].舰船科学技术,2019,41(8):157-159.

1王秀美,高新波.基于判别特征加权的GPLVM算法[J].计算机科学,2009,36(3):189-192.
2张向荣,缑丽敏,李阳阳,冯婕,焦李成.基于免疫克隆高斯过程隐变量模型的SAR目标特征提取与识别[J].红外与毫米波学报,2013,32(3):231-236. 被引量：3
3郭莉莉,刘春光,王迪,韩忠华.基于高斯过程隐变量模型的图像数据降维算法[J].控制工程,2014,21(5):687-690. 被引量：4
4宋全有,王雪瑞,龚志恒.基于共有GP-LVM和改进型SVM的数据分类算法[J].计算机工程与设计,2014,35(7):2412-2416. 被引量：1
5瞿师,于荣欢,吴玲达,魏迎梅,冯晓萌.基于隐空间的运动捕获数据自动分割[J].计算机应用研究,2011,28(8):3128-3130. 被引量：2
6RandyFranklinSmith 蒋世滨.L2TP远程访问——实现强壮的VPN验证[J].Windows & Net Magazine（国际中文版）,2004(03M):51-57.
7陈柏礼,潘丰.模拟移动床集散控制系统的设计[J].江南大学学报（自然科学版）,2005,4(4):423-426. 被引量：1
8靖程.打印机踏上双核路：佳能LBP6670dn黑白激光打印机[J].电脑时空,2013(4):34-34.
9刘剑,龚志恒,吴成东,高恩阳.一种基于改进高斯过程隐变量模型的多角度人脸识别算法[J].电子与信息学报,2013,35(9):2033-2039. 被引量：4
10瞿师,吴玲达,魏迎梅,李松,冯晓萌.基于统计学习的逆向运动学实现方法[J].系统工程与电子技术,2011,33(8):1891-1895.

自动化学报

2014年第6期

浏览历史

内容加载中请稍等...

基于双因子高斯过程动态模型的声道谱转换方法被引量：3

参考文献33

同被引文献4

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于双因子高斯过程动态模型的声道谱转换方法 被引量：3

参考文献33

同被引文献4

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于双因子高斯过程动态模型的声道谱转换方法被引量：3