采用STRAIGHT模型和深度信念网络的语音转换方法被引量：4

Voice conversion using STRAIGHT model and deep belief networks

下载PDF

导出

摘要提出一种将STRAIGHT模型和深度信念网络DBN相结合实现语音转换的方式。首先,通过STRAIGHT模型提取出源说话人和目标说话人的语音频谱参数,用提取的频谱参数分别训练两个DBN得到语音高阶空间的个性特征信息;然后,用人工神经网络ANN将两个具有高阶特征的空间连接并进行特征转换;最后,用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到语音频谱参数,并用STRAIGHT模型合成具有目标说话人个性化特征的语音。实验结果表明,采用此种方式获得的语音转换效果要比传统的采用GMM实现语音转换更好,转换后的语音音质和相似度与目标语音更接近。 We propose a new voice conversion method which combines the STRAIGHT model with deep belief networks. Firstly, we utilize the STRAIGHT model to extract the speech spectrum parame- ters of the source speaker and target speaker which are then used to train the two DBN spectrum param- eters, and obtain the voice characteristic information of the higher order space. Secondly, we can con- nect and convert the two high order spaces using the artificial neural networks （ANNs）. Finally, we employ the DBN trained by the target speaker data to perform reverse processing on the converted fea- ture information, thus obtaining voice spectral parameters. Voice that has personalized features of the target speaker is synthesized by the STRSIGHT model. Experimental results show that compared with the traditional GMM based voice conversion method, the converted voice quality and voice similarity of the proposed method are closer to the target voice.

作者王民苏利博王稚慧要趁红

机构地区西安建筑科技大学信息与控制工程学院

出处《计算机工程与科学》 CSCD 北大核心 2016年第9期1950-1954,共5页 Computer Engineering & Science

基金住房城乡建设部科学技术项目计划(2016-R2-045) 西安市碑林区2014年科技计划项目(GX1412)

关键词语音转换 STRAIGHT模型深度信念网络高阶空间 voice conversion STRAIGHT model deep belief networks high order spaces

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1黄晨晨,巩微,伏文龙,冯东煜.基于深度信念网络的语音情感识别的研究[J].计算机研究与发展,2014,51(S1):75-80. 被引量：18
2许友亮,张连海,张文林,李永彬.基于语速调整和音位属性后验概率的音素识别[J].信号处理,2012,28(2):295-300. 被引量：5
3马勇,鲍长春,夏丙寅.基于辨别性深度信念网络的说话人分割[J].清华大学学报（自然科学版）,2013,53(6):804-807. 被引量：10
4徐宁,杨震.高合成质量的语音转换系统[J].应用科学学报,2008,26(4):378-383. 被引量：1

二级参考文献48

1詹永照,曹鹏.语音情感特征提取和识别的研究与实现[J].江苏大学学报（自然科学版）,2005,26(1):72-75. 被引量：16
2Chin-Hui Lee,Mark A.Clements,Sorin Dusan.An Overview on Automatic Speech Attribute Transcription(ASAT) [C]// Conference on the International Speech Communication Association.Antwerp,Belgium;InterSpeech Express, 2007.1825-1828.
3S.King,P.Taylor.Detection of phonological features in continuous speech recognition using neural networks[J]. Computer,Speech and Language,2000,14(4):333-353.
4M.A.Siegler,R.M.Stern.On the effects of speech rate in large vocabulary speech recognition systems[C]// International Conference on Acoustics,Speech,and Signal Processing. Detroit,MI:ICASSP express,1995.612-615.
5V.R.Gadde,K.Sonmez,H.Franco.Multirate ASR Models for Phone-class Dependent N-best List Rescoring [C]//IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU ).San Juan:IEEE express, 2005.157-161.
6S.Dimopoulos,A.Potamianos,E.-F.Lussier,L.Chin-Hui. Multiple time resolution analysis of speech signal using MCE training with application to speech recognition [C]// International Conference on Acoustics,Speech, and Signal Processing.Tai Bei:IEEE express,2009. 3801-3804.
7I-F Chen,Hsin-Min Wang.Articulatory Feature Asynchrony Analysis and Compensation in Detection-Based ASR//.International Speech Communication Association, Brighton United Kingdom,2009:3059-3062.
8Zoltan Tuske,Christian Plahl,Ralf Schluter.A study on Speaker Normalized MLP Features in LVCSR[C]//Conference on the International Speech Communication Association. Florence,Italy,2011:1089-1092.
9N.Strom,.“The NICO Artificial Neural Network Toolkit”, http://nico.nikkostrom.com.
10Frantisek Grezl.Trap-Based Probabilistic Features For Automatic Speech Recognition[D].Brno,CZ:Brno University of Technology,2007.

共引文献30

1张石清,刘瑞欣,赵小明.跨库语音情感识别研究进展[J].计算机系统应用,2022,31(11):31-48.
2黄光磊,李喆,许永鹏,钱勇,盛戈皞,江秀臣.基于改进深度信念网络的直流XLPE电缆局部放电模式识别[J].高电压技术,2020,46(1):327-334. 被引量：10
3陆俊,张琼,杨俊安,王一,刘辉.嵌入深度信念网络的点过程模型用于关键词检出[J].信号处理,2013,29(7):865-872. 被引量：5
4肖同录,赵增顺.基于深度信念网络的短期电力负荷预测[J].电子世界,2014(10):186-187. 被引量：7
5郑鹏飞,周新聪,方军强,陈凯.基于深度信念网络在船用齿轮箱故障诊断中的应用研究[J].中国修船,2018,31(6):32-36. 被引量：1
6胡冬妮,王武军,王青.基于知网数据的情感识别国内研究情况综述[J].网络新媒体技术,2018,7(6):1-9. 被引量：4
7马勇,鲍长春.基于稀疏神经网络的说话人分割[J].北京工业大学学报,2015,41(5):662-667. 被引量：9
8洪学敏,刘惠华.利用极点轨迹图探讨语速对语音共振峰的影响[J].北京信息科技大学学报（自然科学版）,2015,30(5):57-60.
9石鑫,朱永利.深度学习神经网络在电力变压器故障诊断中的应用[J].电力建设,2015,36(12):116-122. 被引量：52
10石鑫,朱永利,萨初日拉,王刘旺,孙岗.基于深度信念网络的电力变压器故障分类建模[J].电力系统保护与控制,2016,44(1):71-76. 被引量：81

同被引文献20

1朱志萍.智能释放:人工智能2.0时代教育的冲击与改变——兼论人工智能赋能高等职业教育[J].中国职业技术教育,2021,37(1):51-58. 被引量：14
2张正军,杨卫英,陈赞.基于STRAIGHT模型和人工神经网络的语音转换[J].电声技术,2010,34(9):49-52. 被引量：5
3俞一彪,曾道建,姜莹.采用独立说话人模型的语音转换[J].声学学报,2012,37(3):346-352. 被引量：8
4何凌,黄华,刘肖珩.基于韵律特征参数的情感语音合成算法研究[J].计算机工程与设计,2013,34(7):2566-2569. 被引量：8
5宋鹏,王浩,赵力.采用模型自适应的语音转换方法[J].信号处理,2013,29(10):1294-1299. 被引量：2
6周健,窦云峰,刘荣敏,王华彬,陶亮.采用低维特征映射的耳语音向正常音转换[J].声学学报,2018,43(5):855-863. 被引量：2
7王国梁,陈梦楠,陈蕾.一种基于Tacotron 2的端到端中文语音合成方案[J].华东师范大学学报（自然科学版）,2019(4):111-119. 被引量：13
8张雄伟,苗晓孔,曾歆,孙蒙,曹铁勇.语音转换技术研究现状及展望[J].数据采集与处理,2019,34(5):753-770. 被引量：9
9热衣扎·哈那提,努尔布力.语音合成技术研究现状与发展趋势的计量分析[J].现代电子技术,2019,42(21):116-119. 被引量：5
10李燕萍,曹盼,石杨,张燕,钱博.非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换[J].复旦学报（自然科学版）,2020,59(3):322-329. 被引量：9

引证文献4

1潘梦鹞,吕小勇,陈少伟,郇锐铁,王锋.基于AI智能语音技术线上教学的创新与实践[J].创新创业理论研究与实践,2022(24):170-173.
2张筱,张巍,王文浩,万永菁.基于多谱特征生成对抗网络的语音转换算法[J].计算机工程与科学,2020,42(5):893-901. 被引量：3
3祝琼珂,王光艳,江淇,罗雨章.基于STRAIGHT模型的语音转换系统研究[J].山西科技,2020,35(5):60-66.
4庞聪,连海伦,周健,王华彬,陶亮.一种基于特征融合的耳语音向正常音的转换方法[J].南京航空航天大学学报,2020,52(5):777-782.

二级引证文献3

1刘文才,姚凯学,杨乘.基于音频特征的工程车辆工况识别研究[J].计算机工程与科学,2022,44(8):1497-1505. 被引量：1
2侯晓丽,赵雅,严慧深,程宏.基于深度LSTM残差网络的帕金森症诊断方法[J].中国医学物理学杂志,2023,40(5):609-615.
3王翠英.基于深度学习的合成语音转换问题研究[J].自动化与仪器仪表,2023(7):196-200.

1张正军,杨卫英,陈赞.基于STRAIGHT模型和人工神经网络的语音转换[J].电声技术,2010,34(9):49-52. 被引量：5
2马欢.基于STRAIGHT模型的语音转换的研究[J].电脑与电信,2009(1):69-70.
3周纯静,杨卫英.利用声道归一化提高语音转换效果的方法[J].电声技术,2014,38(7):42-46.
4杨俊安,王一,刘辉,李晋徽,陆俊.深度学习理论及其在语音识别领域的应用[J].通信对抗,2014,33(3):1-5. 被引量：9
5吴进,严辉,王洁.采用局部二值模式与深度信念网络的人脸识别[J].电讯技术,2016,56(10):1119-1123. 被引量：10
6马苗苗,何勇军,韩纪庆.说话人识别中用模型合成的编码畸变补偿研究[J].计算机工程与应用,2011,47(3):135-138.
7陆俊,张琼,杨俊安,王一,刘辉.嵌入深度信念网络的点过程模型用于关键词检出[J].信号处理,2013,29(7):865-872. 被引量：5
8张淑清,胡永涛,姜安琦,李军锋,宿新爽,姜万录.基于双树复小波和深度信念网络的轴承故障诊断[J].中国机械工程,2017,28(5):532-536. 被引量：27
9高鑫,欧阳宁,袁华.基于快速去噪和深度信念网络的高光谱图像分类方法[J].桂林电子科技大学学报,2016,36(6):469-476. 被引量：11
10陈芝,张玲华.基频轨迹转换算法及在语音转换系统中的应用研究[J].南京邮电大学学报（自然科学版）,2010,30(5):83-87. 被引量：1

计算机工程与科学

2016年第9期

浏览历史

内容加载中请稍等...

采用STRAIGHT模型和深度信念网络的语音转换方法被引量：4

参考文献4

二级参考文献48

共引文献30

同被引文献20

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

采用STRAIGHT模型和深度信念网络的语音转换方法 被引量：4

参考文献4

二级参考文献48

共引文献30

同被引文献20

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

采用STRAIGHT模型和深度信念网络的语音转换方法被引量：4