一种三层判决的说话人索引算法被引量：1

Speaker Index Algorithm of Three-layer Criterion

下载PDF

导出

摘要为提高说话人索引准确率,提出一种三层判决的说话人索引算法。第1层使用惩罚距离公式对说话人改变进行检测,第2层采用说话人模型自举法进行初次说话人辨认,第3层采用GMM说话人超级矢量进行判决,解决说话人模型自举法中产生的数据不匹配问题。实验结果表明,采用惩罚距离公式,与贝叶斯信息判决方法相比不需调整参数,与DISTBIC方法相比F1值提高2%,使用GMM说话人超级矢量,在说话人索引准确率和数量准确率方面分别提高8.95%、18.25%。 To improve the precision of speaker index,a speaker indexing algorithm of three-layer criterion is proposed.In the first layer,penalty distance is proposed to judge whether speaker changes.In the second layer,speaker model bootstrapping is used to identify speaker first time.In the third layer,GMM Speaker Supervector（GMMSS） is used to identify speaker further in order to settle the problem of data mismatch in speaker model bootstrapping.Experimental results show that,it is no need to tune penalty factor compared to BIC and F1 can improve 2% compared to DISTBIC;speaker indexing accuracy can improve 8.95% and the accuracy on the number of speaker can improve 18.25% by using GMMSS in speaker identification.

作者陈雪芳杨继臣

机构地区东莞理工学院计算机学院仲恺农业工程学院计算机科学与工程学院

出处《计算机工程》 CAS CSCD 2012年第2期184-185,共2页 Computer Engineering

基金东莞市2010年高等院校科研机构科技计划基金资助项目(201010814014)

关键词三层判决说话人索引惩罚距离模型自举法 GMM说话人超级矢量 three-layer criterion speaker index penalty distance model bootstrapping method GMM Speaker Supervector（GMMSS）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1Narayanan K S. Unsupervised Speaker Indexing Using Generic Models[J]. IEEE Trans. on Speech and Audio Processing, 2005, 13(5): 1004-1013.
2Chen S S, Gopalakrishnan P C. Speaker, Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[C] //Proc. of DARPA Broadcast News Transcription & Understanding Workshop. New Your, USA: [s. n.] , 1998: 127-132.
3Kotti M, Moschou V, Kotropoulos C. Speaker Segmentation and Clustering[J]. Signal Processing, 2008, 88(5): 1091-1124.
4Delacourt P, Wellekens. DISTBIC: A Speaker-based Segmentation for Audio Data Indexing[J]. Speech Communication, 2000, 32(1/2): 111-126.
5付中华,张艳宁.在线无监督说话人检索中稳健的模型自举算法[J].软件学报,2007,18(3):608-616. 被引量：3
6Kenny P, Boulianne G. Speaker and Session Variability in GMM- based Speaker Verification[J]. IEEE Trans. on Audio, Speech and Language Processing, 2007, 15(4): 1448-1460.
7Chu S M, Tang Hao. Fishervoice and Semi-supervised Speaker Clustering[C] //Proc. of ICASSP’09. [S. 1.] : IEEE Press, 2009: 4089-4092.
8He Q H, Yang J C. Combining GMM, Jenson’s Inequality and BIC for Speaker Indexing[J]. Electronics Letters, 2010, 46(9): 654-655.
9郑继明,张萍.改进的BIC说话人分割算法[J].计算机工程,2010,36(17):240-242. 被引量：7
10Nishida M, Kawahara T. Speaker Model Selection Based on Bayesian Information Criterion Applied to Unsupervised Speaker Model Indexing[J]. IEEE Trans. on Speech and Audio Processing, 2005, 13(4): 583-592.

二级参考文献7

1张一彬,周杰,边肇祺,张大鹏.一种基于内容的音频流二级分割方法[J].计算机学报,2006,29(3):457-465. 被引量：7
2张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
3Chen S,Gopalakrishnan R.Speaker Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[C] //Proc.of DARPA Broadcast News Transcription and Understanding Workshop.Lansdowne,VA,USA:[s.n.] ,1998:27-132.
4Sivakumaran P,Fortuna J,Ariyaeeinia A M.On the Use of the Bayesian Information Criterion in Multiple Speaker Detection[C] //Proc.of EUROSPEECH'01.Aalborg,Denmark:[s.n.] ,2001.
5Cheng Shih-Sian,Wang Hsin-Min,Fu Hsin-Chia.BIC-based Audio Segmentation by Divide-and-conquer[C] //Proc.of ICASSP'08.Las Vegas,USA:IEEE Press,2008:4841-4844.
6郑继明,王劲松.语音基音周期检测方法[J].计算机工程,2010,36(10):273-275. 被引量：11
7卢坚,毛兵,孙正兴,张福炎.一种改进的基于说话者的语音分割算法[J].软件学报,2002,13(2):274-279. 被引量：17

共引文献7

1曹月芹.动态文本流中的话题线索检测算法[J].计算机工程,2011,37(24):45-49.
2杨继臣,何俊,李艳雄.一种基于性别的说话人索引算法[J].计算机工程与科学,2012,34(6):79-82.
3马勇,鲍长春.说话人分割聚类研究进展[J].信号处理,2013,29(9):1190-1199. 被引量：7
4冷娇娇,赵彤洲,方晖,李翔,李碧.基于方差稳定性度量的乐器音频分割算法[J].计算机工程与设计,2016,37(3):768-772. 被引量：4
5陈国艳,张颖,梁德群.基于BIC准则的图像分割算法[J].辽宁工程技术大学学报（自然科学版）,2016,35(11):1359-1362. 被引量：1
6杨登舟,刘加,夏善红.基于计算听觉场景分析的说话人转换检测[J].计算机工程,2018,44(2):316-321. 被引量：1
7王方丽,傅嘉俊.基于Python的BIC语音分割算法的实现与应用[J].计算机与数字工程,2020,48(4):763-766. 被引量：3

同被引文献4

1李连香,许迪,程先军,李晓琴,余和俊.基于分层构权主成分分析的皖北地下水水质评价研究[J].资源科学,2015,37(1):61-67. 被引量：45
2郑志彬,叶中付.基于相位相关的图像配准算法[J].数据采集与处理,2006,21(4):444-449. 被引量：34
3殷冬梅,张幸果,王允,崔党群.花生主要品质性状的主成分分析与综合评价[J].植物遗传资源学报,2011,12(4):507-512. 被引量：142
4孙永新,赵希顺,符志强.描述逻辑的动态时序扩展[J].计算机应用研究,2012,29(2):536-541. 被引量：5

引证文献1

1熊文真,陈秀琴,李红娟.基于主成分分析的灰度图像匹配方法研究[J].襄阳职业技术学院学报,2016,15(5):25-27.

1杨继臣,姚学科,符志强.使用惩罚距离进行说话人改变检测(英文)[J].仲恺农业工程学院学报,2011,24(3):32-33.
2张大明,符茂胜,郭慧,罗斌.基于惩罚距离的混合模型分量数自动估计算法[J].华南理工大学学报（自然科学版）,2009,37(10):101-107. 被引量：2

计算机工程

2012年第2期

浏览历史

内容加载中请稍等...

一种三层判决的说话人索引算法被引量：1

参考文献10

二级参考文献7

共引文献7

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种三层判决的说话人索引算法 被引量：1

参考文献10

二级参考文献7

共引文献7

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种三层判决的说话人索引算法被引量：1