基于遗传径向基神经网络的声音转换被引量：3

Voice Conversion by GA-based RBF Neural Network

下载PDF

导出

摘要声音转换技术可以将一个人的语音模式转换为与其特性不同的另一个人语音模式 ,使转换语音保持源说话人原有语音信息内容不变 ,而具有目标说话人的声音特点。本文研究了由遗传算法训练的RBF神经网络捕获说话人的语音频谱包络映射关系 ,以实现不同说话人之间声音特性的转换。实验对六个普通话单元音音素的转换语音质量分别作了客观和主观评估 ,结果表明用神经网络方法可以获得所期望的转换语音性能。实验结果还说明 ,与K -均值法相比 ,用遗传算法训练神经网络可以增强网络的全局寻优能力 ,使转换语音与目标语音的平均频谱失真距离减小约 10 %。 Voice conversion technology makes the speech of one speaker sounds as though it were uttered by another speaker giving it a new identity while preserving the original content. This paper addresses a study on voice conversion using genetic algorithm (GA) to train the hidden layers of RBF neural network, which can help better capture the nonlinear mapping between different speakers. Both subjective evaluations and objective ones are conducted on the transformed speech quality with six mono vowel phones in Mandarin speech. Experimental results show that desired performance of converted speech can be obtained when a neural network method is applied to voice conversion technique. The evaluations report that compared with K means method, a genetic algorithm based RBF network has the ability of global optimization with a 10% decrease in the spectral distance between the transformed speech and the target speech.

作者左国玉刘文举阮晓钢

机构地区中科院自动化所模式识别国家重点实验室北京工业大学电子信息与控制工程学院

出处《中文信息学报》 CSCD 北大核心 2004年第1期78-84,共7页 Journal of Chinese Information Processing

基金国家自然科学基金项目 (6 0 172 0 5 5 6 0 12 130 2 ) 中科院自动化所领域前沿项目 (1M 0 2J0 5 )

关键词人工智能自然语言处理声音转换 RBF神经网络遗传算法线谱频 artificial intelligence natural language processing voice conversion RBF neural network genetic algorithm line spectrum frequency

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1祖漪清.汉语连续语音数据库的语料设计[J].声学学报,1999,24(3):236-247. 被引量：17
2岳喜才,管桦,叶大田.说话人识别使用遗传RBF网络[J].应用声学,2000,19(2):35-38. 被引量：6

二级参考文献26

1罗振声,郑碧霞.汉语句型自动分析和分布统计算法与策略的研究[J].中文信息学报,1994,8(2):1-19. 被引量：21
2孙国华.普通话两音节中V1－Z间的共振蜂过渡.第三届语音学研讨会论文集[M].,1996.108-110.
3许毅.普通话音联的声学语音学特性[J].中国语文,1986,5.
4郭锦浮.汉语句子长度、语速与结构停顿.计算机时代的汉语和汉字研究学术研讨会论文摘要[M].,1995.17.
5李爱军.普通话新闻广播话语中的障碍.中国声学学会1997年青年学术会议论文集[M].,1997.262-266.
6孙甲松王作英等.连续语音训练词表的构造.第二届中国计算机智能接口与智能应用学术会议论文集[M].,1995.116-121.
7曲菲黄泰翼等.汉语综合语音库语料设计.第四届全国人机语音通讯学术会议论文集[M].,1996.337-341.
8G方特张家lu等（译）.言语科学与言语技术[M].商务印书馆,1994..
9曹剑芬.两音节音联字表[J].语言文字应用,1997,1:60-68.
10陈肖霞.汉语普通话两音节CVCV间C2为三个发音部位的逆向协同发音声学研究[J].中国语文,1997,4:54-63.

共引文献21

1李荪,曹峰,刘姿杉.面向算法模型的语音数据集质量评估方法研究[J].计算机科学,2022,49(S02):519-524. 被引量：2
2张成,屈卫东.基于RBF神经网络的临近空间气温预测模型[J].控制工程,2008,15(S1):106-108. 被引量：6
3林茂灿.普通话语句中间断和语句韵律短语[J].当代语言学,2000,2(4):210-217. 被引量：31
4阮玲英,陈立万.大词汇量连续语音识别探讨[J].电脑与信息技术,2007,15(4):54-56.
5李蓉.一种改进的基于正交GMM的说话人辨识方法[J].华东交通大学学报,2007,24(5):77-80.
6杨阳蕊,李永宏,于洪志.藏语安多方言的音联结构及统计分析[J].西北民族大学学报（自然科学版）,2008,29(2):11-16. 被引量：2
7王宏,李鑫,高阳.基于大学生的汉语说话人识别语音库设计[J].昌吉学院学报,2008(6):107-111. 被引量：5
8李高云,张雪英.用遗传算法改进的RBF神经网络在语音识别系统中的应用[J].太原理工大学学报,2009,40(4):345-347. 被引量：2
9赵晖,林成龙,唐朝京.基于视频三音子的双模态语料自动选取算法[J].计算机工程,2009,35(17):1-3. 被引量：2
10赵晖,林成龙,唐朝京.基于视频三音子的汉语双模态语料库的建立[J].中文信息学报,2009,23(5):98-103. 被引量：6

同被引文献12

1左国玉,刘文举,阮晓钢.一种使用声调映射码本的汉语声音转换方法[J].数据采集与处理,2005,20(2):144-149. 被引量：4
2康永国,双志伟,陶建华,张维.基于混合映射模型的语音转换算法研究[J].声学学报,2006,31(6):555-562. 被引量：13
3Kain A. High Resolution Voice Transformation[D]. Portland, USA: Oregon Health & Science University, 2001.
4Srinivas D, Veera R E, Yegnanarayana B, et al. Voice Conversion Using Artificial Neural Networks[C]//Proc. of 2009 IEEE lnt'l Conf. on Information and Automation. Taipei, China: [s. n.], 2009.
5李波,褚振勇,张圣杰,毛玉泉,王宝良.基于小语料库训练的语音转换系统[J].中国科技信息,2008(18):28-29. 被引量：2
6赵晖,林成龙,唐朝京.基于视频三音子的双模态语料自动选取算法[J].计算机工程,2009,35(17):1-3. 被引量：2
7赵晖,林成龙,唐朝京.基于视频三音子的汉语双模态语料库的建立[J].中文信息学报,2009,23(5):98-103. 被引量：6
8赵义正.改进GMM谱包络转换性能的语音转换算法研究[J].科学技术与工程,2010,10(17):4172-4174. 被引量：3
9祖漪清.汉语连续语音数据库的语料设计[J].声学学报,1999,24(3):236-247. 被引量：17
10沈惠玲,万永菁.一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J].华东理工大学学报（自然科学版）,2017,43(4):546-552. 被引量：2

引证文献3

1沈亚敏,赵晖,张权,唐朝京.面向语音转换的汉语语料自动选取算法[J].计算机工程,2011,37(5):256-257.
2沈惠玲,万永菁.一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J].华东理工大学学报（自然科学版）,2017,43(4):546-552. 被引量：2
3王文浩,张筱,万永菁.改进深度信念网络在语音转换中的应用[J].浙江大学学报（工学版）,2019,53(12):2372-2380. 被引量：1

二级引证文献3

1王文浩,张筱,万永菁.改进深度信念网络在语音转换中的应用[J].浙江大学学报（工学版）,2019,53(12):2372-2380. 被引量：1
2李智诚,张云翔.面向电力行业的智能会议录音回溯系统[J].现代计算机,2020,26(21):37-39. 被引量：1
3周迪,简志华,胡伟通,汪云路.基于双字典的噪声环境下的语音转换方法[J].小型微型计算机系统,2020,41(10):2230-2234. 被引量：1

1朱浩歌.这小子不同凡响麦丽迪(MELODY)SP3胆机[J].视听技术,2006(7):41-45.
2左国玉,刘文举,阮晓钢.声音转换技术的研究与进展[J].电子学报,2004,32(7):1165-1172. 被引量：32
3韩峰,李义军.Nyquist采样频率下的频谱失真与采样定理[J].内蒙古工业大学学报（自然科学版）,2002,21(4):298-301. 被引量：4
4孟子厚.普通话单元音女声共振峰统计特性测量[J].声学学报,2006,31(3):199-202. 被引量：8
5宽带语音蓝牙音频平台[J].今日电子,2011(7):61-61.
6史彦军.YAESU系列电台话筒控制盒的制作[J].现代通信,2012(2):68-70.
7唐艺明.基于频谱的语音识别研究——互相关卷积部分[J].电子质量,2013(10):43-46.
8Musical Fidelity（音乐传真）A1 CD Pro CD播放机、A1 Integrated Amplifier合并式放大器[J].音响世界,2008(3):18-18.
9潘明海,于维双,武小娟,刘英哲.宽带信号的高精度重构方法[J].河北师范大学学报（自然科学版）,2005,29(1):30-32.
10潘渊.声音转换及相关技术的研究[J].今日科苑,2010(22):113-113. 被引量：1

中文信息学报

2004年第1期

浏览历史

内容加载中请稍等...

基于遗传径向基神经网络的声音转换被引量：3

参考文献2

二级参考文献26

共引文献21

同被引文献12

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于遗传径向基神经网络的声音转换 被引量：3

参考文献2

二级参考文献26

共引文献21

同被引文献12

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于遗传径向基神经网络的声音转换被引量：3