基于本征音子说话人子空间的说话人自适应算法被引量：4

Speaker Adaptation Method Based on Eigenphone Speaker Subspace for Speech Recognition

下载PDF

导出

摘要本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。 The eigenphone speaker adaptation method performs well when the amount of adaptation data is sufficient. However, it suffers from severe over-fitting when insufficient amount of adaptation data is provided. A speaker adaptation method based on eigenphone speaker subspace is proposed to overcome this problem. Firstly, a brief overview of the eigenphone speaker adaptation method is presented in case of Hidden Markov Model-Gaussian Mixture Model （HMM-GMM） based speech recognition system. Secondly, speaker snbspace is introduced to model the inter-speaker correlation information among different speakers＇ eigenphones. Thirdly, a new speaker adaptation method based on eigenphone speaker subspace is derived from estimation of a speaker dependent coordinate vector for each speaker. Finally, a comparison between the new method and traditional speaker subspace based method is discussed in detail. Experimental results on a Mandarin Chinese continuous speech recognition task show that compared with original eigenphone speaker adaptation method, the performance of the eigenphone speaker subspace method can be improved significantly when insufficient amount of adaptation data is provided. Compared with eigenvoice method, eigenphone speaker subspace method can save a great amount of storage space only at the expense of minor performance degradation.

作者屈丹张文林

机构地区信息工程大学信息系统工程学院

出处《电子与信息学报》 EI CSCD 北大核心 2015年第6期1350-1356,共7页 Journal of Electronics & Information Technology

基金国家自然科学基金(61175017 61302107和61403415)资助课题

关键词语音信号处理说话人自适应本征音子本征音子说话人子空间低秩约束本征音 Speech signal processing Speaker adaptation constraint Eigenvoice Eigenphone Eigenphones＇ speaker subspace Low-rank

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献16

1Zhang Wen-lin,Zhang Wei-qiang,Li Bi-cheng,et al..Bayesian speaker adaptation based on a new hierarchical probabilistic model[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(7): 2002-2015.
2Solomonoff A,Campbell W M,and Boardman I.Advances in channel compensation for SVM speaker recognition[C].Proceedings of International Conference on Acoustics,Speech,and Signal Processing (ICASSP),Philadelphia,United States,2005: 629-632.
3Kumar D S P,Prasad N V,Joshi V,et al..Modified splice and its extension to non-stereo data for noise robust speech recognition[C].Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU),Olomouc,Czech Republic,2013: 174-179.
4Ghalehjegh S H and Rose R C.Two-stage speaker adaptation in subspace Gaussian mixture models[C].Proceedings of International Conference on Audio,Speech and Signal Processing(ICASSP),Florence,Italy,2014: 6374-6378.
5Wang Y Q and Gale M J F.Tandem system adaptation using multiple linear feature transforms[C].Proceedings of International Conference on Audio,Speech and Signal Processing(ICASSP),Vancouver,Canada,2013: 7932-7936.
6Kenny P,Boulianne G,and Dumouchel P.Eigenvoice modeling with sparse training data[J].IEEE Transactions on Speech and Audio Processing,2005,13(3): 345-354.
7Kenny P,Boulianne G,Dumouchel P,et al..Speaker adaptation using an eigenphone basis[J].IEEE Transaction on Speech and Audio Processing,2004,12(6): 579-589.
8Zhang Wen-lin,Zhang Wei-qiang,and Li Bi-cheng.Speaker adaptation based on speaker-dependent eigenphone estimation[C].Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU),Hawaii,United States,2011: 48-52.
9张文林,张连海,陈琦,李弼程.语音识别中基于低秩约束的本征音子说话人自适应方法[J].电子与信息学报,2014,36(4):981-987. 被引量：3
10Zhang Wen-lin,Qu Dan,and Zhang Wei-qiang.Speaker adaptation based on sparse and low-rank eigenphone matrix estimation[C].Proceedings of Annual Conference on International Speech Communication Association (INTERSPEECH),Singapore,2014: 2972-2976.

二级参考文献1

1张文林,牛铜,张连海,李弼程.基于最大似然可变子空间的快速说话人自适应方法[J].电子与信息学报,2012,34(3):571-575. 被引量：3

共引文献2

1屈丹,张文林.基于稀疏组LASSO约束的本征音子说话人自适应[J].通信学报,2015,36(9):47-54.
2徐必伟,苏成利,杨微,曹江涛.基于DTW和EMD的孤立词语音识别研究[J].辽宁石油化工大学学报,2018,38(1):74-78. 被引量：2

同被引文献27

1雷明,韩崇昭,肖梅.扩展卡尔曼粒子滤波算法的一种修正方法[J].西安交通大学学报,2005,39(8):824-827. 被引量：9
2张应博.基于无极卡尔曼滤波算法的雅可比矩阵估计[J].计算机应用,2011,31(6):1699-1702. 被引量：6
3张文林,牛铜,张连海,李弼程.基于最大似然可变子空间的快速说话人自适应方法[J].电子与信息学报,2012,34(3):571-575. 被引量：3
4曹洁,余丽珍.基于MFCC和运动强度聚类初始化的多说话人识别[J].计算机应用研究,2012,29(9):3295-3298. 被引量：10
5谢怡宁,黄金杰,何勇军.噪声环境下智能机器人语音控制特征提取方法[J].北京邮电大学学报,2013,36(3):83-87. 被引量：6
6陆俊,张琼,杨俊安,王一,刘辉.嵌入深度信念网络的点过程模型用于关键词检出[J].信号处理,2013,29(7):865-872. 被引量：5
7余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：585
8李建文,李岩.多通道皮肤听声器质量检测系统的研究[J].计算机测量与控制,2013,21(11):2941-2943. 被引量：2
9任航.基于拟蒙特卡洛滤波的改进式粒子滤波目标跟踪算法[J].电子测量与仪器学报,2015,29(2):289-295. 被引量：27
10屈丹,杨绪魁,张文林.特征空间本征音说话人自适应[J].自动化学报,2015,41(7):1244-1252. 被引量：4

引证文献4

1袁翔.基于Sphinx的机器人语音识别系统构建与研究[J].电脑知识与技术,2017,13(3):154-155. 被引量：1
2李建文,杨亚威.基于移动设备的听障人特定语音识别训练系统[J].河南科技学院学报（自然科学版）,2019,47(1):67-73. 被引量：2
3张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：5
4曹洁,黄开杰,王进花.基于GPU加速的粒子滤波多说话人跟踪算法及其应用[J].计算机应用研究,2019,36(3):796-800. 被引量：1

二级引证文献9

1郑若君,黄亚琳,朱黎.基于语音识别和无线传感的家居安全预警系统[J].湖北民族学院学报（自然科学版）,2019,37(3):304-307.
2杜淼,黄天淏,边彤,颜逸为,余勤,雒瑞森.基于隐马尔科夫模型集成学习的广播关键词检测[J].河南科技,2019,0(35):8-11.
3左宪禹,张哲,苏岳瀚,刘扬,葛强,田军锋.基于GPU多流并发并行模型的NDVI提取算法[J].计算机科学,2020,47(4):25-29. 被引量：3
4李彬华,於立峰.B/S架构下的电厂设备智能识别系统设计[J].数字技术与应用,2021,39(3):152-154. 被引量：2
5王雨佳.基于语音合成的机器翻译机器人设计[J].自动化与仪器仪表,2023(4):185-190.
6高长丰,程高峰,张鹏远.面向鲁棒自动语音识别的一致性自监督学习方法[J].声学学报,2023,48(3):578-587. 被引量：1
7张静宇,高志刚,仝瑶瑶,张玉凤,张勇.具有语音控制功能的举高类消防车控制系统设计[J].工程设计学报,2023,30(3):281-287.
8刘育坤,郑霖,黎塔,张鹏远.多声学场景下端到端语音识别声学编码器的自适应[J].声学学报,2023,48(6):1260-1268. 被引量：1
9董胡.基于嵌入式平台与DNN-HMM的中文儿童语音能力评估研究[J].办公自动化,2024,29(4):84-86.

1屈丹,张文林.基于稀疏组LASSO约束的本征音子说话人自适应[J].通信学报,2015,36(9):47-54.
2张文林,张连海,陈琦,李弼程.语音识别中基于低秩约束的本征音子说话人自适应方法[J].电子与信息学报,2014,36(4):981-987. 被引量：3
3林浩,谭立地,徐昕,徐涛,周娅.H.264/AVC中进行帧间预测的研究及实施[J].江西科学,2009,27(1):104-107. 被引量：1
4赵力,邹采荣,吴镇扬.基于连续分布型HMM的汉语连续语音的声调识别方法[J].信号处理,2000,16(1):20-23. 被引量：6
5赵鹤鸣,周旭东.基于知识的汉语连续语音识别研究[J].计算机研究与发展,1993,30(6):44-48. 被引量：2
6吴霁,侯伯亨.一种新的汉语连续语音音节分割方法[J].西部电子,1993,4(4):8-17.
7王晶莹,王作英.一种利用主曲线的说话人自适应方法[J].高技术通讯,2007,17(5):470-473.
8李虎生,刘加,刘润生.高性能汉语数码串语音识别[J].电子学报,2001,29(5):595-599. 被引量：9
9吕萍,王作英,陆大■.基于矩阵线性插值的说话人自适应算法[J].清华大学学报（自然科学版）,2002,42(1):27-29.
10丁媛媛,司玉娟,姚成.H.264快速多参考帧选择算法[J].吉林大学学报（工学版）,2010,40(2):566-570. 被引量：1

电子与信息学报

2015年第6期

浏览历史

内容加载中请稍等...

基于本征音子说话人子空间的说话人自适应算法被引量：4

参考文献16

二级参考文献1

共引文献2

同被引文献27

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于本征音子说话人子空间的说话人自适应算法 被引量：4

参考文献16

二级参考文献1

共引文献2

同被引文献27

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于本征音子说话人子空间的说话人自适应算法被引量：4