基于因子分析建模的电话语音说话人聚类被引量：1

Speaker Clustering of Telephone Speech Based on Front-End Factor Analysis

下载PDF

导出

摘要现有基于混合高斯模型的说话人聚类方法主要依据最大后验准则,从通用背景模型中自适应得到类别的混合高斯模型,然而自适应数据较少,模型的准确性不够.对此,文中尝试基于本征语音(EV)空间和全变化(TV)空间分析的两种因子分析建模方法,通过对差异空间的建模,减少估计类别混合高斯模型时需要估计的参数个数.结果表明,在美国国家标准技术研究所2008年说话人识别评测的电话语音数据集上,相对于基于最大后验概率准则的基线系统而言,文中所使用的基于EV和TV空间分析的建模方法都可使聚类错误率有较大幅度的下降,并且TV空间分析建模相对于EV空间分析建模能获得更低的聚类错误率. The existing speaker clustering methods based on clusters＇ GMMs by adapting from universal background Gaussian mixture model （GMM） mainly obtain model （UBM）. However, this adaptive method suffers from the lack of data and results in poor models. In this paper, two factor analysis modeling methods based on eigenvoice （EV） space analysis and total variability （TV） space analysis respectively are explored. The two methods greatly reduce the number of estimated parameters when clusters＇ GMMs are estimated by modeling variability space. The experimental results on two speakers telephone data in 2008 NIST Speaker Recognition Evaluation show that the two proposed methods achieve considerable reduction in speaker error rate compared to the baseline system using MAP adaptation, and the method based on TV space analysis obtains lower speaker error rate compared to the method based on EV space analysis.

作者吴奎宋彦戴礼荣

机构地区中国科学技术大学电子工程与信息科学系合肥

出处《模式识别与人工智能》 EI CSCD 北大核心 2013年第1期1-5,共5页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.61172158) 安徽省自然科学基金项目(No.090412056)资助

关键词说话人聚类本征语音空间全变化空间交叉似然比 Speaker Clustering, Eigenvoice Space, Total Variability Space, Cross Likelihood Ratio

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献11

1Tranter S,Reynolds D.A. An Overview of Automatic Speaker Diarization Systems[J].IEEE Trans on Audio Speech Language Process,2006,(05):1557-1565.
2Gauvain J L,Lamel L,Adda G. Partitioning and Transcription of Broadcast News Data[A].Sydney,Austrilia,1998.1335-1338.
3Chen S S,Gopalakrishnam P S. Speaker,Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[A].Lansdowne,USA,1998.127-132.
4Siegier M A,Jain U,Raj B. Automatic Segmentation,Classification and Clustering of Broadcast News Audio[A].Chantilly,France,1997.97-99.
5Gish H,Siu M,Rohlicek R. Segregation of Speakers for Speech Recognition and Speaker Identification[A].Toronto,Canada,1991.873-876.
6Zhu X,Barras C,Meignier S. Combining Speaker Identification and BIC for Speaker Diarization[A].Lisbon,Portugal,2005.2441-2444.
7Kenny P,Boulianne G,Dumouchel P. Eigenvoice Modeling with Sparse Training Data[J].IEEE Transactions on Speech and Audio Processing,2005,(03):345-359.
8Reynolds D A,Quatieri T F,Dunn R. Speaker Verification Using Adapted Gaussian Mixture Model[J].Digital Signal Processing,2000,(13):19-41.
9Dehak N,Kenny P,Dehak R. Front-End Factor Analysis for Speaker Verification[J].IEEE Trans on Audio[J].Speech and Language Processing,2011,(04):788-798.
10Tritschler A,Gopinath R. Improved Speaker Segmentation and Segments Clustering Using the Bayesian Information Criterion[A].Budapest,Hungary,1999.679-682.

同被引文献7

1孟国.汉语语速与对外汉语听力教学[J].世界汉语教学,2006,20(2):129-137. 被引量：35
2张薇,刘加.电话语音的多说话人分割聚类研究[J].清华大学学报（自然科学版）,2008,48(4):574-577. 被引量：6
3杨继臣,贺前华,李艳雄,王伟凝.一种两步判决的说话人分割算法[J].电子与信息学报,2010,32(8):2006-2009. 被引量：7
4郭春霞.说话人识别算法的研究[J].西安邮电学院学报,2010,15(5):104-106. 被引量：5
5马勇,鲍长春.说话人分割聚类研究进展[J].信号处理,2013,29(9):1190-1199. 被引量：7
6马勇,鲍长春.基于稀疏神经网络的说话人分割[J].北京工业大学学报,2015,41(5):662-667. 被引量：9
7王满洪,张二华,王明合.基于双门限算法的端点检测改进研究[J].计算机与数字工程,2017,45(11):2223-2228. 被引量：11

引证文献1

1李艳妮,张二华.多人会话混合语音的说话人分割[J].计算机与数字工程,2020,48(7):1558-1563.

1陈玥同,刘学亮.结合两种距离测度的说话人聚类算法[J].小型微型计算机系统,2015,36(10):2369-2373. 被引量：1
2卢建朱,陈火炎.具有消息恢复的数字签名方案及其安全性[J].小型微型计算机系统,2003,24(4):695-697. 被引量：16
3张素敏,苏东林,王炜.改进的基于决策树的说话人在线聚类[J].光学精密工程,2010,18(1):227-233. 被引量：1
4曹兰英,夏良正,张昆辉.基于小波域MRF模型的SAR图像分割[J].东南大学学报（自然科学版）,2004,34(6):847-850. 被引量：7
5刘希亮,陈桂明,李方溪,张倩.多源信息融合及其在齿轮泵故障诊断中的应用[J].液压与气动,2012,36(6):118-122. 被引量：3
6肖述才,欧智坚,王作英.语音识别中的一种说话人聚类算法[J].中文信息学报,2005,19(4):84-88. 被引量：4
7文志诚,曹春丽.基于因子加权的网络安全态势感知方法[J].计算机应用,2015,35(5):1393-1398. 被引量：5
8吴伟,李艳雄,王梓里,陈祝允.基于语速差异的新闻发布会中首要说话人检测[J].计算机工程与应用,2015,51(4):222-225.
9刘晋胜.采用熵相关性优化分离性的SVM说话人识别[J].计算机工程与设计,2011,32(8):2845-2848.
10胡学海,王厚军,古天祥.基于最大后验概率的K/N规则研究[J].电子测量与仪器学报,2007,21(5):22-25. 被引量：2

模式识别与人工智能

2013年第1期

浏览历史

内容加载中请稍等...

基于因子分析建模的电话语音说话人聚类被引量：1

参考文献11

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于因子分析建模的电话语音说话人聚类 被引量：1

参考文献11

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于因子分析建模的电话语音说话人聚类被引量：1