基于MAP+CMLLR的说话人识别中发声力度问题被引量：1

Vocal effort in speaker recognition based on MAP+CMLLR

下载PDF

导出

摘要为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率(MAP)和约束最大似然线性回归(CMLLR)相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率(EER)明显降低,与基线系统、最大后验概率(MAP)自适应方法、最大似然线性回归(MLLR)模型投影方法和约束最大似然线性回归(CMLLR)特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。 To improve the performance of recognition system which is influenced by the change of vocal effort, in the premise of a small amount of whisper and shouted speech data in training speech data, Maximum A Posteriori （MAP） and Constraint Maximum Likelihood Linear Regression （CMLLR） were combined to update the speaker model and transform the speaker characteristics. MAP adaption method was used to update the speaker model of normal speech training, and the CMLLR feature space projection method was used to project and transform the features of whisper and shouted testing speech to improve the mismatch between training speech and testing speech. Experimental results show that the Equal Error Rate （EER） of speaker recognition system was significantly reduced by using the proposed method. Compared with the baseline system, MAP adaptation method, Maximum Likelihood Linear Regression （MLLR） model projection method and CMLLR feature space projection method, the average EER is reduced by 75.3%, 3.5%, 72%, 70.9%, respectively. The experimental results prove that the proposed method weakens the influence on discriminative power for vocal effort and makes the speaker recognition system more robust to vocal effort variability.

作者黄文娜彭亚雄贺松

机构地区贵州大学大数据与信息工程学院

出处《计算机应用》 CSCD 北大核心 2017年第3期906-910,共5页 journal of Computer Applications

基金贵州省社会攻关计划项目(黔科合SY字[2013]3105号) 贵州省工程技术研究中心建设项目(黔科合G字[2014]4002号)~~

关键词说话人识别发声力度最大后验概率最大似然线性回归约束最大似然线性回归 speaker recognition vocal effort Maximum A Posteriori （MAP） Maximum Likelihood Linear Regression（MLLR） Constraint Maximum Likelihood Linear Regression （CMLLR）

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1晁浩,宋成,彭维平.基于发音特征的声效相关鲁棒语音识别算法[J].计算机应用,2015,35(1):257-261. 被引量：8

二级参考文献15

1栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
2杨莉莉,林玮,徐柏龄.汉语耳语音孤立字识别研究[J].应用声学,2006,25(3):187-192. 被引量：8
3TRAUNM13"LLER H, ERIKSSON A. Acoustic effects of variation in vocal effort by men, women, and children [ J]. Journal of the A- coustical Society of America, 2000, 107(6): 3438-3451.
4ZELINKA P, SIGMUND M, SCHIMMEL J. Impact of vocal effort variability on automatic speech recognition [ J]. Speech Communica- tion, 2012, 54(6): 732-742.
5RAITIO T, SUNI A, POHJALAINEN J, et al. Analysis and synthe- sis of shouted speech [ C]// INTERSPEECH 2013: Proceedings of the 14th Annual Conference of the International Speech Communica- tion Association. [ S. l. ] : ISCA, 2013:1544 - 1548.
6ZHANG C, HANSEN J H L. Analysis and classification of speech mode: whispered through shouted [ C]// INTERSPEECH 2007: Proceedings of the 8 th Annual Conference of the International Speech Communication Association. [ S. 1. ] : ISCA, 2007:2289 -2292.
7BOU-GHAZALE S, HANSEN J H L. HMM-based stressed speech modeling with application to improved synthesis and recognition of isolated speech under stress [ J]. IEEE Transactions on Speech Audio Processing, 1998, 6(3): 201-216.
8LU Y, COOKE M. The contribution of changes in F 0 and spectral tilt to increased intelligibility of speech produced in noise [ J]. Speech Communication, 2009, 51(12) : 1253 - 1262.
9JOVICIC S T, SARIC Z. Acoustic analysis of consonants in whis- pered speech [J]. Journal of Voice, 2008, 22(3): 263 -274.
10ZHANG C, HANSEN J H L. An entropy based feature for whisper- island detection within audio streams [ C]//INTERSPEECH 2008: Proceedings of the 9th Annual Conference of the International Speech Communication Association. [ S. 1. ] : ISCA, 2008:2510 -2513.

共引文献7

1马学明.50%苯·苄可湿性粉剂的研究[J].湖南化工,2000,30(1):22-23.
2吴为胜,张良,李磊.虚拟场景中篡改语音检测方法的研究[J].计算机仿真,2016,33(7):418-422. 被引量：2
3戚龙,赵丹.基于BP神经网络的非特定人语音识别算法[J].科学技术与工程,2017,17(31):277-282. 被引量：12
4解本铭,韩明明,张攀,张威.飞机牵引车语音识别的动态时间规整优化算法[J].计算机应用,2018,38(6):1771-1776. 被引量：7
5何朝霞,潘平,罗辉.音色变换音频信号的篡改检测技术研究[J].中国测试,2017,43(2):98-103. 被引量：3
6张攀,房体会,张威,韩明明,解润海.智能飞机牵引机器人语音控制研究[J].起重运输机械,2019(7):104-108. 被引量：1
7江婧,王润,张金连,郗涛,颜普.基于多特征融合的语音鉴伪算法[J].安徽建筑大学学报,2020,28(6):73-77.

同被引文献4

1司华建,李辉,陈冠华,方昕.最大后验概率自适应方法在口令识别中的应用[J].计算机工程与应用,2013,49(12):164-167. 被引量：1
2杨勇,李劲松,孙明伟.基于REMOS的远距离语音识别模型补偿方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):117-123. 被引量：3
3努尔麦麦提.尤鲁瓦斯,张力文,吾守尔.斯拉木.说话人自适应技术在维吾尔语语音识别中的应用研究[J].中文信息学报,2016,30(3):79-84. 被引量：4
4张宇,张鹏远,颜永红.基于注意力LSTM和多任务学习的远场语音识别[J].清华大学学报（自然科学版）,2018,58(3):249-253. 被引量：29

引证文献1

1娄英丹,徐静林,黄丽霞,张雪英.MLLR和MAP在远场噪声混响下的语音识别研究[J].计算机工程与应用,2020,56(10):122-126. 被引量：7

二级引证文献7

1赵霞.噪声环境下的语音识别算法研究[J].电脑知识与技术,2019,15(10):224-225.
2黄友鹏.关于人工智能中远场语音识别技术的探究[J].科学大众（科技创新）,2021(6):111-111.
3张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：11
4赵力瑾,高攀.基于连续隐马尔科夫模型的英语翻译机器人语音识别系统[J].自动化与仪器仪表,2022(6):191-194. 被引量：9
5郁小强,田毅帅,韩磊,王忠军,李寿荣.语音识别技术在配电网工程建设中的应用[J].信息技术,2023,47(8):65-69. 被引量：1
6董胡.基于嵌入式平台与DNN-HMM的中文儿童语音能力评估研究[J].办公自动化,2024,29(4):84-86.
7相增辉,张国梁,庞渊源,陈鑫,王鑫.基于深度卷积神经网络的智能机器人语音自动识别方法[J].自动化技术与应用,2024,43(4):43-46. 被引量：3

1钱洪伟,贺苏宁.说话人模型参数自适应技术研究[J].电信技术研究,2008(5):16-22.
2丰洪才,卢正鼎.基于MAP和MLLR的综合渐进自适应方法研究[J].计算机工程,2005,31(5):4-7. 被引量：3
3周宇,陈熙霖,赵德斌,姚鸿勋,高文.基于数据生成的手语识别自适应方法[J].高技术通讯,2009,19(12):1258-1264.
4李荟,赵云敏.特征音方法在说话人识别中的应用[J].计算机系统应用,2013,22(8):176-179.
5展领,景新幸.基于VQ-MAP和SVM融合的说话人识别系统[J].计算机工程与应用,2011,47(13):136-138. 被引量：5
6张晶,范明,冯文全,董金明.基于MFCC参数的说话人特征提取算法的改进[J].电声技术,2009,33(9):61-64. 被引量：16
7项要杰,杨俊安,李晋徽,杨瑞国.关联小波神经网络与高斯混合模型说话人识别[J].探测与控制学报,2013,35(6):65-70. 被引量：1
8钟山,何亮,邓妍,刘加.基于最大似然线性回归矩阵的说话人识别算法研究[J].自动化学报,2009,35(5):546-550.
9余姗姗,张亚琼.语音识别的自适应研究[J].福建电脑,2011,27(6):53-54.
10老万.体会“电脑管家8·0”的与众不同[J].计算机应用文摘,2013(15):48-49.

计算机应用

2017年第3期

浏览历史

内容加载中请稍等...

基于MAP+CMLLR的说话人识别中发声力度问题被引量：1

参考文献1

二级参考文献15

共引文献7

同被引文献4

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于MAP+CMLLR的说话人识别中发声力度问题 被引量：1

参考文献1

二级参考文献15

共引文献7

同被引文献4

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于MAP+CMLLR的说话人识别中发声力度问题被引量：1