基于最大似然可变子空间的快速说话人自适应方法被引量：3

Rapid Speaker Adaptation Based on Maximum-likelihood Variable Subspace

下载PDF

导出

摘要该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。 A new rapid speaker adaptation method based on maximum likelihood variable subspace is proposed.A set of bases of the speaker space is obtained by performing Principal Component Analysis（PCA） on the Speaker Dependent（SD） model parameters of the training speakers.Different from conventional subspace based methods,during speaker adaptation,a subset of these bases is dynamically chosen for each speaker using maximum likelihood criteria.The new speaker＇s model is constrained in the subspace spanned by those bases.With less free parameters required,the new method can obtain more robust SD model using very little amount of adaptation data.Speech recognition experiments show that the new method can obtain better performance than the eigenvoice method and MLLR method,both in supervised mode and in unsupervised mode.

作者张文林牛铜张连海李弼程

机构地区解放军信息工程大学信息工程学院

出处《电子与信息学报》 EI CSCD 北大核心 2012年第3期571-575,共5页 Journal of Electronics & Information Technology

基金国家自然科学基金(60872142)资助课题

关键词连续语音识别说话人自适应本征音子空间方法 Continuous speech recognition Speaker adaptation Eigenvoice Subspace method

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献10

1Lee C H,Lin C H,and Juang B H.A study on speakeradaptation of the parameters of continuous density hiddenMarkov models[J].IEEE Transactions on Signal Processing,1991,39(4):806-814.
2李虎生,刘加,刘润生.语音识别说话人自适应研究现状及发展趋势[J].电子学报,2003,31(1):103-108. 被引量：32
3Ghoshal A,Povey D,Agarwal M,et al..A novel estimationof feature-space MLLR for full-covariance models[C].International Conference on Acoustics,Speech and SignalProcessing,Dallas,Texas,USA,2010:4310-4313.
4Kuhn R,Junqua J C,Nguyen P,et al..Rapid speakeradaptation in eigenvoice space[J].IEEE Transactions onSpeech and Audio Processing,2000,8(6):695-707.
5Teng W X,Gravier G,Bimbot F,et al..Rapid speakeradaptation by reference model interpolation[C].Interspeech,Antwerp,Belgium,2007:258-261.
6Teng W X,Gravier G,Bimbot F,et al..Speaker adaptationby variable reference model subspace and application tolarge vocabulary speech recognition[C].InternationalConference on Acoustics,Speech and Signal Processing,Taipei,China,2009:4381-4384.
7Jeong Y and Sim H S.New speaker adaptation method using2-D PCA[J].IEEE Signal Processing Letters,2010,17(2):193-196.
8Jeong Y.Speaker adaptation based on the multilineardecomposition of training speaker models[C].InternationalConference on Acoustics,Speech and Signal Processing,Dallas,Texas,USA,2010:4870-4873.
9Young S,Evermann G,Gales M,et al..The HTK Book.HTKVersion 3.4,2009.
10Chang E,Shi Y,Zhou J,et al..Speech lab in a box:aMandarin speech toolbox to jumpstart speech relatedresearch[C].EUROSPEECH-2001,Aalborg,Denmark,2001:2799-2802.

二级参考文献2

1张昊天.[D].北京:清华大学电子工程系,2000.
2李虎生,杨明杰,刘润生.汉语数码语音识别自适应算法[J].电路与系统学报,1999,4(2):1-6. 被引量：4

共引文献31

1杨吉斌,邢艳玲,曹铁勇,张雄伟.基于Mellin变换和Mel频率分析的非特定人语音识别特征研究[J].模式识别与人工智能,2005,18(3):350-353. 被引量：2
2李财莲,赵小阳,王丽娟,岳振军.说话人识别中关键技术的现状与发展[J].军事通信技术,2005,26(2):62-65. 被引量：3
3蔡铁,朱杰.基于支持说话人权重的快速说话人自适应算法[J].上海交通大学学报,2005,39(12):1997-2001.
4徐向华,朱杰,郭强.决策树结构对说话人自适应影响的研究[J].声学学报,2006,31(1):42-47. 被引量：3
5黄盈椿,王欢良,冯涛.应用MAP方差估计的话者自适应训练方法[J].计算机工程,2006,32(20):203-204.
6倪建克,曾虹,张翔.基于最大均值似然判决规则的说话人辨认研究[J].杭州电子科技大学学报（自然科学版）,2006,26(5):96-99.
7申朝文,何家峰,蔡继祖.说话人识别技术的方法与展望[J].中国科技信息,2007(4):269-270.
8朱浩冰,郭东辉.声纹识别系统原理及其关键技术[J].计算机安全,2007(9):14-17. 被引量：15
9武永星,郑海,周波,杨常青,李茂林.基于距离和相关性准则的混合参数说话人识别[J].系统仿真学报,2008,20(4):926-930.
10雷建军,杨震,刘刚,郭军.噪声鲁棒语音识别研究综述[J].计算机应用研究,2009,26(4):1210-1216. 被引量：14

同被引文献13

1XUXiang-hua ZHUJie.Speaker Adaptation with Transformation Matrix Linear Interpolation[J].Wuhan University Journal of Natural Sciences,2004,9(6):927-930. 被引量：1
2屈丹,张文林.基于本征音子说话人子空间的说话人自适应算法[J].电子与信息学报,2015,37(6):1350-1356. 被引量：4
3屈丹,杨绪魁,张文林.特征空间本征音说话人自适应[J].自动化学报,2015,41(7):1244-1252. 被引量：4
4张宇,计哲,万辛,张震,葛凤培,颜永红.基于DNN的声学模型自适应实验[J].天津大学学报（自然科学与工程技术版）,2015,48(9):765-770. 被引量：5
5侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：81
6杨建斌,张卫强,刘加.深度神经网络自适应中基于身份认证向量的归一化方法[J].中国科学院大学学报（中英文）,2017,34(5):633-639. 被引量：6
7金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12
8曹晶晶,许洁萍,邵聖淇.多噪声环境下的层级语音识别模型[J].计算机应用,2018,38(6):1790-1794. 被引量：9
9李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(3):371-377. 被引量：18
10Bosheng LIU,Xiaoming CHEN,Yinhe HAN,Jiajun LI,Haobo XU,Xiaowei LI.Accelerating DNN-based 3D point cloud processing for mobile computing[J].Science China(Information Sciences),2019,62(11):36-46. 被引量：6

引证文献3

1齐耀辉,潘复平,葛凤培,颜永红.鉴别性最大后验概率声学模型自适应[J].计算机应用,2014,34(1):265-269. 被引量：2
2张文林,张连海,陈琦,李弼程.语音识别中基于低秩约束的本征音子说话人自适应方法[J].电子与信息学报,2014,36(4):981-987. 被引量：3
3张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：11

二级引证文献16

1屈丹,张文林.基于本征音子说话人子空间的说话人自适应算法[J].电子与信息学报,2015,37(6):1350-1356. 被引量：4
2屈丹,张文林.基于稀疏组LASSO约束的本征音子说话人自适应[J].通信学报,2015,36(9):47-54.
3蒋泰,张林军.语音识别自适应算法在智能家居中的应用[J].计算机系统应用,2017,26(3):150-155. 被引量：3
4徐波,陈爱月,申子健.利用高斯混合模型的均值参数实现基于SVM说话人身份识别[J].改革与开放,2017(12):88-90.
5徐必伟,苏成利,杨微,曹江涛.基于DTW和EMD的孤立词语音识别研究[J].辽宁石油化工大学学报,2018,38(1):74-78. 被引量：2
6王雨佳.基于语音合成的机器翻译机器人设计[J].自动化与仪器仪表,2023(4):185-190. 被引量：1
7高长丰,程高峰,张鹏远.面向鲁棒自动语音识别的一致性自监督学习方法[J].声学学报,2023,48(3):578-587. 被引量：4
8张静宇,高志刚,仝瑶瑶,张玉凤,张勇.具有语音控制功能的举高类消防车控制系统设计[J].工程设计学报,2023,30(3):281-287. 被引量：1
9刘育坤,郑霖,黎塔,张鹏远.多声学场景下端到端语音识别声学编码器的自适应[J].声学学报,2023,48(6):1260-1268. 被引量：1
10董胡.基于嵌入式平台与DNN-HMM的中文儿童语音能力评估研究[J].办公自动化,2024,29(4):84-86.

1齐耀辉,潘复平,葛凤培,颜永红.鉴别性最大后验概率线性回归说话人自适应研究[J].北京理工大学学报,2015,35(9):946-950. 被引量：2
2张文林,屈丹,李弼程.匹配追踪说话人自适应方法[J].声学学报,2014,39(4):523-530.
3张文林,张连海,陈琦,李弼程.语音识别中基于低秩约束的本征音子说话人自适应方法[J].电子与信息学报,2014,36(4):981-987. 被引量：3
4赵力,刘怡龙,邹采荣,高西奇,吴镇扬.基于VQ-HMM的无教师说话人自适应方法[J].东南大学学报（自然科学版）,2001,31(2):23-26. 被引量：1
5王晶莹,王作英.一种利用主曲线的说话人自适应方法[J].高技术通讯,2007,17(5):470-473.
6吕津,赵明生,王作英.基于码本的说话人自适应方法[J].电子学报,2001,29(4):456-460. 被引量：2
7林峰,倪巍,王宗欣.智能天线中一种抑制干扰的波束形成算法[J].复旦学报（自然科学版）,2002,41(2):159-164. 被引量：4
8梁启联,周正,刘泽民.基于递归神经网络的盲均衡算法的改进[J].北京邮电大学学报,1997,20(4):6-11. 被引量：10
9吕勇.语音截止频率在语音识别中的应用[J].科技创新与应用,2013,3(36):300-300.
10王太军,程皓,郭伟.无监督条件下直扩信号特征码型估计方法[J].电路与系统学报,2009,14(3):103-106.

电子与信息学报

2012年第3期

浏览历史

内容加载中请稍等...

基于最大似然可变子空间的快速说话人自适应方法被引量：3

参考文献10

二级参考文献2

共引文献31

同被引文献13

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于最大似然可变子空间的快速说话人自适应方法 被引量：3

参考文献10

二级参考文献2

共引文献31

同被引文献13

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于最大似然可变子空间的快速说话人自适应方法被引量：3