基于HMM-BIC的说话人日志系统被引量：4

Speaker diarization system based on HMM-BIC

导出

摘要该文提出一种改进的基于隐Markov模型(HMM)和Bayes信息准则(BIC)的说话人日志系统。它用来检测会议语音数据中"谁在什么时候说话"。在对说话人模型进行Gauss混合模型(GMM)建模的时候,考虑到用来建模的数据通常会比较短,首先训练一个通用背景模型,然后用最大后验概率(MAP)准则得到相应片段的模型。在NIST 2004年举办的说话人日志评测任务数据集RT-04S上的实验结果表明:该系统与国际主流系统相比有一定的优势。 A speaker diarization system was developed based on the popular hidden Markov model（HMM） and Bayes information criterion（BIC） framework to detect ＂who spoke when＂.Speaker models using Gaussian mixture models（GMM） usually fail because the segments used for the GMM training are too short for accurate modeling.A universal background model（UBM） was trained using all of the meeting data,and then a maximum a posterior（MAP） criterion was used to estimate the speaker＇s model based on the UBM.The system outperforms a state-of-the-art system on the National Institute of Standards and Technology（NIST） rich transcription（RT） 2004 spring speaker diarization evaluation.

作者周瑜金怡珠李桂莲

机构地区中国科学院声学所语言声学与内容理解重点实验室北京华夏物证鉴定中心

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2011年第9期1267-1270,1275,共5页 Journal of Tsinghua University(Science and Technology)

基金国家科技支撑计划(2008BAI50B03) 国家自然科学基金面上项目(10874203 60875014 61072124 11074275)

关键词说话人日志最大后验概率隐MARKOV模型 Bayes信息准则 speaker diarization maximum a posterior（MAP） hidden Markov model（HMM） Bayes information criterion（BIC）

分类号 TP391.42 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1Barras C, Zhu X, Meignier S, et al. Multi stage speaker diarizalion of broadcast news[J].IEEE Transactions on Audio, Speech and Language Processing, 2006, 14(5): 1505 - 1512.
2Deleglise P, Esteve Y, Meignier S, et al. Improvements to the LIUM French ASR system based on CMU Sphinx: what helps to significantly reduce the word error rate? [C]// Interspeech. Brighton, NJ:ISCA, 2009:2123-2126.
3Pardo J L, Anguera X, Wooters X, Speaker diarization for multiple distant microphone meetings using several sources of information [J].IEEE Transactions on Computers, 2007, 56(9) : 1214 - 1224.
4Nguyen H T, Chng E, Li H Z. T-test distance and clustering criterion for speaker diarization [C]//Interspeech. Brisbane, NI, ISCA, 2008, 36-39.
5Meignier S, Moraru D, Fredouille C, et al. Step-by-step and integrated approaches in broadcast news speaker diarization[J]. Computer Speech and Language, 2006, 20(2-3): 303- 330.
6NIST. Rich Transcription Evaluation Project [EB/OL]. [2011-06-01]. http: //www. itl. nist. gov/iad/mig/tests/rt.
7Adami A, Burget L, Dupont S, et al. Qualcomm icsi ogi features for asr [C]// Proc ICSLP. Denver, NJ International Speech Communication Association, 2002, 1: 4-7,.
8Anguera X. Robust acoustic beam former [EB/OL].[2011- 06-01]. http: //www. xavieranguera, com/beamformit.
9Patane G, Marco R. The enhanced LBG algorithm [J]. Neural Networks, 2001, 14(9) : 1219 - 1237.
10Dempster A P, Laird N M, Ruhin D B. Maximum Likelihood from Incomplete Data via the EM Algorithm [J].Journal of the Royal Statistical Society, 1977, 39(1) : 1 - 38.

同被引文献96

1周曦,戴蓓蒨,陈雁翔,李辉.基于纯度和BBN算法的无监督的话者聚类[J].模式识别与人工智能,2005,18(4):486-490. 被引量：2
2付中华,张艳宁.在线无监督说话人检索中稳健的模型自举算法[J].软件学报,2007,18(3):608-616. 被引量：3
3..http://www.itl.nist.gov/iad/mig/tests/rt/,.
4S.E.Tranter,D.A.Reynolds.An overview of automatic speaker diarization systems[J].IEEE Tram on Audio,Speech,and Language for Processing.2006,14(5):1557-1565.
5M.Kotti,V.Moschou,C.Kotropoulos.Speaker segmentation and clustering.Signal Processing 2008(88):1091-1124.
6T.Stafylakis and V.Katsouros.A review of recent advances in speaker diarization with bayesian methods.Speech and Language Technologies[M].InTech pubhshing 2011:217-240.
7X.Anguera,S.Bozonnet,N.Evans,C.Fredouille,G.Friedland,O.Vinyals.Speaker diarization:a review of recent research[J].IEEE Trans on Audio,Speech,and Language for Processing.2012,20(2):356-370.
8J.Ramírez; J.M.G6rriz,J.C.Segura.Voice activity detection.Fundamentals and Speech Recognition System Robustness[M].In M.Grimm and K.Kroschel.Robust Speech Recognition and Understanding.2007:1-22.
9D.Liu and F.Kubala,Fast speaker change detection for broadcast news transcription and indexing[C].In Proc.Eur Conf.Speech Commun Technol,1999(3):1031-1034.
10Nwe,T.L,Sun,H.,Li.,H.,Rahardja,S.,Speaker diarization in meeting audio,In Proc.of ICASSP,2010:4073-4076.

引证文献4

1马勇,鲍长春.说话人分割聚类研究进展[J].信号处理,2013,29(9):1190-1199. 被引量：7
2武志翔,王顺利,李占锋,邱斌,尚丽平.基于短时平均幅度和HMM的语音识别系统研究[J].化工自动化及仪表,2013,40(6):779-782. 被引量：2
3罗骁茜,宁泽功.基于日志的客户感知问题辅助分析系统的应用研究[J].互联网天地,2014(4):52-55.
4陈玥同,刘学亮.结合两种距离测度的说话人聚类算法[J].小型微型计算机系统,2015,36(10):2369-2373. 被引量：1

二级引证文献10

1马勇,鲍长春.基于稀疏神经网络的说话人分割[J].北京工业大学学报,2015,41(5):662-667. 被引量：9
2马勇,鲍长春.基于高层信息特征的重叠语音检测[J].清华大学学报（自然科学版）,2017,57(1):79-83. 被引量：3
3李敬阳,李锐,王莉,王晓笛.基于变分贝叶斯改进的说话人聚类算法[J].数据采集与处理,2017,32(1):54-61. 被引量：2
4周金傲,龙华.基于音频特征参数的多语种分类算法[J].通信技术,2018,51(10):2350-2355. 被引量：3
5赖松轩,李艳雄.说话人聚类的初始类生成方法[J].计算机工程与应用,2017,53(3):149-153.
6薛雷,张弛,张程浩,章依文.汉语儿童言语发育水平自动评估关键技术的研究[J].工业控制计算机,2019,32(7):74-75.
7李艳妮,张二华.多人会话混合语音的说话人分割[J].计算机与数字工程,2020,48(7):1558-1563.
8韩雪,慕昱,盛桂敏.CCPSO优化支持向量机的鸟声识别技术研究[J].声学技术,2023,42(1):118-126. 被引量：2
9项羽,令晓明,郭亚龙.基于DS证据理论多特征融合模型的说话人分割聚类研究[J].科技创新与应用,2023,13(23):108-111.
10许铭洋,王华朋,闫道申,杨海涛,楚宪腾.基于深度嵌入向量的说话人分割研究[J].刑事技术,2023,48(5):466-472.

1刘伟峰,杨爱兰.基于BIC准则和Gibbs采样的有限混合模型无监督学习算法[J].电子学报,2011,39(A03):134-139. 被引量：24
2熊振宇,郑方,宋战江,吴文虎.基于树形通用背景模型的高效说话人辨认[J].清华大学学报（自然科学版）,2006,46(7):1305-1308. 被引量：3
3张陈昊,郑方,王琳琳.基于多音素类模型的文本无关短语音说话人识别[J].清华大学学报（自然科学版）,2013,53(6):813-817. 被引量：1
4谭萍,邢玉娟,高翔.说话人模型聚类算法研究与分析[J].中国建材科技,2015,24(5):87-88.
5张建宁,孙立峰,钟玉琢.基于最优化分类的视频镜头谱聚类算法[J].清华大学学报（自然科学版）,2007,47(10):1700-1703. 被引量：2
6鲍焕军,郑方.GMM-UBM和SVM说话人辨认系统及融合的分析[J].清华大学学报（自然科学版）,2008,48(S1):693-698. 被引量：9
7王正创.基于MFCC与共振峰的声纹识别算法研究[J].电脑知识与技术,2016,0(2):188-190.
8陈晨,韩纪庆.说话人识别方法综述[J].智能计算机与应用,2015,5(5):92-94. 被引量：3
9程玉胜,丁美文,夏叶茂.非齐次隐马尔可夫因子模型期望最大化算法[J].计算机科学与探索,2014,8(3):359-367. 被引量：1
10杨莹春,邓立才.基于GMM托肯配比相似度校正得分的说话人识别[J].清华大学学报（自然科学版）,2017,57(1):28-32. 被引量：1

清华大学学报（自然科学版）

2011年第9期

浏览历史

内容加载中请稍等...

基于HMM-BIC的说话人日志系统被引量：4

参考文献15

同被引文献96

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于HMM-BIC的说话人日志系统 被引量：4

参考文献15

同被引文献96

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于HMM-BIC的说话人日志系统被引量：4