基于BIC和G_PLDA的说话人分离技术研究被引量：7

The research of speaker diarization based on BIC and G_PLDA

下载PDF

导出

摘要传统的以贝叶斯信息准则(Bayesian information criterion,BIC)作为相似性度量的说话人分离技术,在短时对话的分离任务中能取得较好的效果,但是随着对话时长的增加,BIC的单高斯模型不足以描述不同说话人数据的分布,且层次聚类(Hierarchical agglomerative clustering,HAC)时,区分相同说话人和不同说话人的门限值难以划定.针对此问题,提出基于短时BIC和长时G_PLDA的融合方法,充分利用BIC在短时聚类的可靠性和G_PLDA在长时段上的优异区分性,在美国国家标准技术局(NIST)08Summed测试集上的实验表明,该方法将分类错误率(DER)从BIC基线系统的2.34%降到1.54%,性能相对提升34.2%. The traditional technology for speaker diarization（SD）, which exploits the Bayesian iniormauon criterion（BIC） as the similarity metric, can obtain good results in the short dialogue task, but with the length of the dialogue increasing , single Gaussian model of BIC is insufficient to describe the information distribution of different speakers. Moreover, it is difficult to delineate the threshold between the same speakers and different speakers when using hierarchical clustering （HAC）. To solve this problem, a fusion method between BIC and G_PLDA was proposed, so as to make full use of the reliability of BIC in short- term clustering and the excellent discriminating power of G_PLDA in long utterancs. A set of experiments based on NIST 08 Summed shows that this new fusion method reduces the diariazation error rate （DER） from 2.34 ~ of BIC baseline system to 1.54 ~, improving performance of speaker diarization by 34.2 ~.

作者李锐卓著李辉

机构地区中国科学技术大学电子科学与技术系

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2015年第4期286-293,共8页 JUSTC

关键词说话人分离贝叶斯信息准则高斯概率线性判别分析分类错误率 speaker diariazation BIC G_ PLDA DER

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献13

1Moattar M H, Homayounpour M M. A review on speaker diarization systems and approaches[J]. Speech Communication, 2012, 54(10):1065-1103.
2TranterS E, Reynolds D A. An overview of automatie speaker diarization systems[J]. IEEE Transactions on Audio, Speech, and Language Processing, ,2006, 14 (5) : 1557-1565.
3Makino S, Lee T W, Sawada H. Blind Speech Separation[M]. Berlin, Germany: Springer, 2007.
4Wang D L, Brown G J. Computational Auditory Scene Analysis: Principles, Algorithms, and Applications [M]. New Jersey, USA: Wiley, 2006.
5Chen S S, Gopalakrishnan P S. Speaker, environment and channel change detection and clustering via the Bayesian information criterion[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Morgan Kaufman, 1998 : 127-132.
6Ben M, Betser M, Bimbot F, et al. Speaker diarization using bottom-up clustering based on a parameter- derived distance between adapted GMMs [C]// Proceedings of the International Conference on Spoken Language Processing. Jeju, Korea: IEEE Press, 2004: 2329-2332.
7Dehak N, Kenny P, Dehak R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19 (4) : 788-798.
8ShumS, Dehak N, Chuangsuwanich E, et al. Exploiting Intra-Conversation Variability for Speaker Diarization[C]// Proceedings of the llth Annual International Speech Communication Association. Florence, Italy: IEEE Press, 2011: 945-948.
9GlembekO, Burget L, Matejka P, et al. Simplification and optimization of i-vector extraction [C]// International Conference on Acoustics, Speech and Signal Processing. Brno, Czech: IEEE Press, 2011: 4516-4519.
10Prince S J D, Eider J E. Probabilistic linear discriminant analysis for inferences about identity[C]// llth International Conference on Computer Vision. Rio de Janeiro, Brazil: IEEE Press, 2007: 1-8.

同被引文献38

1李春伟,张骏.基于神经网络的股票中期预测[J].计算机工程与科学,2006,28(5):115-117. 被引量：6
2秦焱,朱宏,李旭伟.基于改进型粒子群优化算法的BP网络在股票预测中的应用[J].计算机工程与科学,2008,30(4):66-68. 被引量：6
3罗季.Monte Carlo EM加速算法[J].应用概率统计,2008,24(3):312-318. 被引量：16
4温艳清,赵志刚,刘宝亮.利用ECM算法进行参数估计[J].山东理工大学学报（自然科学版）,2009,23(2):48-50. 被引量：4
5谢赤,郑林林,孙柏,张在美.基于EMD和Elman网络的人民币汇率时间序列预测[J].湖南大学学报（自然科学版）,2009,36(6):89-92. 被引量：12
6徐颖,宋彦,戴礼荣.结合模型混淆度和BIC准则的语种识别精细建模方法[J].数据采集与处理,2011,26(5):573-578. 被引量：3
7卢洁,杨学志,郎文辉,左美霞,徐勇.区域GMM聚类的SAR图像分割[J].中国图象图形学报,2011,16(11):2088-2094. 被引量：16
8夏睿,宗成庆.情感文本分类混合模型及特征扩展策略[J].智能系统学报,2011,6(6):483-488. 被引量：4
9凌锦雯,陆伟,刘青松,张琨磊.利用EHMM和CLR的说话人分割聚类算法[J].小型微型计算机系统,2012,33(6):1389-1392. 被引量：3
10丁红,张晓峰.非均匀光照图像中粘连手写体和印刷体的辨别[J].计算机工程与设计,2012,33(12):4634-4638. 被引量：7

引证文献7

1李敬阳,李锐,王莉,王晓笛.基于变分贝叶斯改进的说话人聚类算法[J].数据采集与处理,2017,32(1):54-61. 被引量：2
2李玉,张英海,赵雪梅,赵泉华.结合BIC准则和ECM算法的可变类SAR影像分割[J].中国矿业大学学报,2017,46(6):1402-1410. 被引量：2
3林琴,夏俊峰,涂铮铮,郭玉堂.基于帧特征及维特比解码的手写体与印刷体分类[J].激光与光电子学进展,2019,56(6):115-121. 被引量：4
4吴曼曼,徐建新.基于EMD改进的Elman神经网络对股票的短期预测模型[J].计算机工程与科学,2019,41(6):1119-1127. 被引量：9
5孙国强,陈婕卿,李建初.无效语音过滤技术在医院超声业务的应用研究[J].中国卫生信息管理杂志,2020,17(4):544-548. 被引量：3
6葛骏浩,郭伟.智能语音技术在电视台业务系统中的应用分析[J].广播电视信息,2020,27(8):99-102. 被引量：2
7孙刚鸿.音视频IP协议在广播电视台业务融合中的应用研究[J].电声技术,2023,47(5):50-52.

二级引证文献22

1朱艺,刘卿,王力华.基于语音识别的“抢单式”超声报告集中录入平台构建与实施[J].中国数字医学,2021,16(8):32-35. 被引量：2
2赵宝福,柴胜仙,张艳菊.基于直觉模糊时间序列与Elman神经网络组合模型的动态顾客需求预测[J].辽宁工程技术大学学报（社会科学版）,2021,23(3):168-175. 被引量：1
3吴婕,吕永乐.基于多项式系数自回归模型的雷达性能参数最优组合预测[J].计算机应用,2019,39(4):1117-1121. 被引量：8
4石雪,李玉,赵泉华.层次化高斯混合模型和M-H的遥感影像分割算法[J].中国矿业大学学报,2019,48(3):668-675. 被引量：2
5徐浩然,许波,徐可文.机器学习在股票预测中的应用综述[J].计算机工程与应用,2020,56(12):19-24. 被引量：23
6王方丽,傅嘉俊.基于Python的BIC语音分割算法的实现与应用[J].计算机与数字工程,2020,48(4):763-766. 被引量：3
7夏国强,尚振宏.基于自动化剪枝策略的青铜铭文识别方法[J].激光与光电子学进展,2020,57(16):249-256.
8吴龙,杨洋.语音识别技术在超声工作站中的应用[J].中国卫生信息管理杂志,2021,18(6):729-732. 被引量：5
9周亮,陈辰,李宁.基于机器学习和经验模态分解的跨期套利研究[J].西南大学学报（自然科学版）,2022,44(1):148-159. 被引量：1
10张明岳,李丽敏,温宗周,张顺锋.基于改进Elman神经网络和模糊控制的智能灌溉算法设计[J].国外电子测量技术,2021,40(11):155-160. 被引量：10

1赖松轩,李艳雄.说话人聚类的初始类生成方法[J].计算机工程与应用,2017,53(3):149-153.
2张东芳,张利娜.基于HAC的SAR图像分割算法研究[J].西部资源,2014(1):191-193.
3杨文,颜卫,涂尚坦,廖明生.基于贝叶斯信息准则的极化干涉SAR图像非监督分类[J].电子与信息学报,2012,34(11):2628-2634. 被引量：8
4李敬阳,李锐,王莉,王晓笛.基于变分贝叶斯改进的说话人聚类算法[J].数据采集与处理,2017,32(1):54-61. 被引量：2
5杨继臣,吴裕玲,苏杰华.基于核密度估计的说话人改变检测[J].仲恺农业工程学院学报,2012,25(3):40-41.
6安荣邦.HAC技术在GSM手机中的应用[J].电子产品世界,2009,16(7):48-51.
7刘涛,陈豪,姜卫东,黎湘.基于Gibbs抽样的红外成像小间距目标分辨方法[J].信号处理,2010,26(8):1193-1199. 被引量：3
8王亚子,周湘贞.基于压缩感知的高分辨距离像散射中心参数估计[J].科学技术与工程,2014,22(20):61-66. 被引量：4
9包希日莫,高光来,张璟.基于遗传算法的声学模型拓扑结构优化[J].计算机工程与应用,2014,50(14):5-8. 被引量：6
10申滨,王平玉,程克非,陈前斌.基于GBIC准则的认知无线电宽带频谱感知[J].北京邮电大学学报,2015,38(2):83-88. 被引量：1

中国科学技术大学学报

2015年第4期

浏览历史

内容加载中请稍等...

基于BIC和G_PLDA的说话人分离技术研究被引量：7

参考文献13

同被引文献38

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于BIC和G_PLDA的说话人分离技术研究 被引量：7

参考文献13

同被引文献38

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于BIC和G_PLDA的说话人分离技术研究被引量：7