多人会话混合语音的说话人分割

Speaker Segmentation Based on Mixed Voice of Multiple Speakers

下载PDF

导出

摘要利用说话人信息自动管理海量混合语音是一个重要的研究课题,为了提高多人会话场景下短语音的说话人分割正确率,论文研究了一种基于高斯混合模型和多尺度分析的说话人分割算法。在提高短语音说话人识别率的基础上,该算法综合使用端点检测和多尺度分析来实现说话人分割,并引入分帧概率来优化说话人分割效果。实际汉语分割实验结果表明,对由一系列短语音(小于3s)交替组成的多人混合语音,该算法取得了较好的分割效果。 It is an important research topic to automatically manage massive mixed speech by speaker information.This paper proposes a speaker segmentation algorithm based on Gaussian mixture model and multi-scale analysis in order to improve the accu⁃racy of speaker segmentation of short utterance in multi-person conversation.This algorithm is used to endpoint detection with multi-scale analysis to achieve speaker segmentation,on the basis of improving the speaker recognition rate of short utterance,frame-division probability is applied to optimize the effect of speaker segmentation.The experimental results of Chinese segmenta⁃tion show that the algorithm achieves good segmentation results for mixed voice of multiple speakers composed of a series of short ut⁃terance(less than 3s).

作者李艳妮张二华 LI Yanni;ZHANG Erhua(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094)

机构地区南京理工大学计算机科学与工程学院

出处《计算机与数字工程》 2020年第7期1558-1563,1622,共7页 Computer & Digital Engineering

基金军委装备发展部十三五装备预研领域基金项目(编号:61403120102)资助。

关键词短语音说话人分割高斯混合模型多尺度分析说话人识别 short utterance speaker segmentation Gaussian mixture model multi-scale analysis speaker recognition

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1郭春霞.说话人识别算法的研究[J].西安邮电学院学报,2010,15(5):104-106. 被引量：5
2吴奎,宋彦,戴礼荣.基于因子分析建模的电话语音说话人聚类[J].模式识别与人工智能,2013,26(1):1-5. 被引量：1
3马勇,鲍长春.基于稀疏神经网络的说话人分割[J].北京工业大学学报,2015,41(5):662-667. 被引量：9
4张薇,刘加.电话语音的多说话人分割聚类研究[J].清华大学学报（自然科学版）,2008,48(4):574-577. 被引量：6
5马勇,鲍长春.说话人分割聚类研究进展[J].信号处理,2013,29(9):1190-1199. 被引量：7
6杨继臣,贺前华,李艳雄,王伟凝.一种两步判决的说话人分割算法[J].电子与信息学报,2010,32(8):2006-2009. 被引量：7
7孟国.汉语语速与对外汉语听力教学[J].世界汉语教学,2006,20(2):129-137. 被引量：35
8王满洪,张二华,王明合.基于双门限算法的端点检测改进研究[J].计算机与数字工程,2017,45(11):2223-2228. 被引量：10

二级参考文献126

1赵鹏喜.基于概率神经网络在声发射信号处理中的应用[J].三门峡职业技术学院学报,2009,8(2):90-92. 被引量：2
2杨惠元.中国对外汉语听力教学的发展[J].世界汉语教学,1992,6(4):291-295. 被引量：33
3刘颂浩.对外汉语听力教学研究述评[J].世界汉语教学,2001,15(1):93-107. 被引量：66
4陈振标,徐波.基于子带能量特征的最优化语音端点检测算法研究[J].声学学报,2005,30(2):171-176. 被引量：22
5张仁志,崔慧娟.基于短时能量的语音端点检测算法研究[J].电声技术,2005,29(7):52-54. 被引量：45
6付中华,张艳宁.在线无监督说话人检索中稳健的模型自举算法[J].软件学报,2007,18(3):608-616. 被引量：3
7Reynolds D, Quatieri T, Dunn R. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10:19 - 41.
8Chen S S, Gales M J. Automatic transcription of broadcast news [J]. Speech Communication, 2002, 37: 69-87.
9Tritschler A, Gopinath R. Improved speaker segmentation and segments clustering using the Bayesian information criterion [C] // Sixth European Conference on Speech Communication and Technology (EUROSPEECH' 99). Budapest, Hungary, 1999:679 - 682.
10Meignier S. E HMM approach for learning and adapting sound models for speaker indexing [C]// Speaker Odyssey. Chania, Crete, 2001: 175-180.

共引文献70

1孙杰.基于云端的智能笔辅助交传笔记教学探究[J].现代英语,2020(12):103-108.
2于娜.对外汉语听力教学综述[J].辽宁行政学院学报,2007,9(12):111-112. 被引量：5
3王皓舒.长段听力材料中的信息数量及位置对中级汉语听力理解的影响[J].暨南大学华文学院学报,2008(4):42-49. 被引量：1
4郑燕琳,杨晓炯,许星宇.电话语音中基于多说话人的声纹识别系统[J].电信科学,2010,26(S2):105-108.
5张楚晗.浅谈对外汉语听力教学与学生汉语听说能力的提高[J].安徽文学（下半月）,2011(7):230-230.
6孟国.关于初级汉语实况听力教学的几个问题[J].暨南大学华文学院学报,2009(3):27-32. 被引量：1
7何洪霞.HSK听力短文题型障碍分析及训练对策[J].沈阳教育学院学报,2010,12(5):42-44. 被引量：1
8杨毅,宋辉,刘加.基于NIST评测的说话人分类及定位技术研究[J].电子与信息学报,2011,33(5):1234-1237.
9张武江.电视商业广告的平均语速与受众理解[J].现代传播（中国传媒大学学报）,2011,33(9):148-149. 被引量：4
10游玉灵.浅析少数民族大学生汉语教学中的语速问题[J].喀什师范学院学报,2011,32(5):101-104. 被引量：2

1夏亚飞.基于K均值聚类和二维Otsu的棉花HSV图像分割[J].软件,2020,41(7):170-173. 被引量：6
2李丽亚,闫宏印.融合递归求逆滤波的机器人混合语音识别方法[J].计算机仿真,2020,37(8):277-280. 被引量：5

计算机与数字工程

2020年第7期

浏览历史

内容加载中请稍等...

多人会话混合语音的说话人分割

参考文献8

二级参考文献126

共引文献70

相关作者

相关机构

相关主题

浏览历史