基于声学融合特征的说话人分类方法研究

Research on Speaker Classification Method Based on Acoustic Merging Feature

下载PDF

导出

摘要说话人分类系统的目的是将声音数据分段并按说话人进行分类。对每个说话人提取基于多距离麦克风的多时延特征,可以进一步提高说话人分类系统性能。但随着麦克风个数增加,多时延特征向量维数迅速增长。针对该问题,采用保留特征流形结构并降低计算代价的方法,提出一种基于多距离麦克风融合声学特征的多分量鉴别式保局投影算法,利用支持向量机分类器进行两说话人分类系统的训练和测试,实现会议场景下的说话人分类。实验结果证明,与传统DLPP等算法相比,该算法在大部分数据集上的分类性能较优,可将分类误差率降低至20%以下。 The purpose of the speaker classification system is to segment and classify speech data according to different speaker.It improves performance of the speaker classification system by extracting multi-delay feature based on multiple distance microphones.With the number of microphones increases,the multi-delay feature vector dimension grows rapidly.Aiming at this problem,a method is proposed with keeping manifold structure and reducing the computational cost.It uses the multi-component discriminant locality preserving projections algorithm based on multiple distance microphones acoustic merging feature.Experimental results show that Diarization Error Rate（DER） of this algorithm can be reduced to below 20% and is better than traditional methods in most of the data set.

作者杨毅陈国顺鲍长春

机构地区清华大学电子工程系清华信息科学与技术国家实验室(筹) 石家庄机械技术研究所电子室北京工业大学电子信息与控制工程学院

出处《计算机工程》 CAS CSCD 2013年第8期1-4,共4页 Computer Engineering

基金国家自然科学基金资助项目(61105017) 北京市自然科学基金资助项目(KZ201110005005)

关键词说话人分类多距离麦克风多时延特征声学融合特征多分量鉴别式保局投影分类误差率 speaker classification multiple distance microphone multi-delay feature acoustic merging feature multi-component discriminant locality preserving projection Diarization Error Rate（DER）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1The 2009(RT-09)Rich Transcription Meeting RecognitionEvaluation Plan[EB/OL].(2009-10-21).http://nist.gov/speech/tests/rt/2009.
2王炜,吕萍,颜永红.一种改进的基于层次聚类的说话人自动聚类算法[J].声学学报,2008,33(1):9-14. 被引量：4
3施剑,何成林,杜利民.基于USB2.0的麦克风阵列语音数据采集系统设计[J].计算机工程,2006,32(24):216-218. 被引量：3
4Togneri R,Alder M,Attikiouzel J.Dimension and Structure ofthe Speech Space[J].Communications,Speech and Vision,1992,139(2):123-127.
5Riemann B.über Die Hypothesen Welche Der Geometrie ZuGrunde Liegen[M].New York,USA:Dover Publications,1854.
6Yu Weiwei,Teng Xiaolong,Liu Chongqing.Face RecognitionUsing Discriminant Locality Preserving Projections[J].Imageand Vision Computing,2006,24(3):239-248.
7卢桂馥,王勇,金忠.快速的完备鉴别保局投影人脸识别算法[J].模式识别与人工智能,2011,24(6):804-809. 被引量：2
8Yang Liping,Gong Weiguo,Gua Xiaohua,et al.Null SpaceDiscriminant Locality Preserving Projections for FaceRecognition[J].Neurocomputing,2008,71(16-18):3644-3649.
9Benesty J,Chen Jingdong,Huang Yiteng.Microphone ArraySignal Processing[M].[S.1.]:Springer,2008:192-193.
10Georgiou P G,Kyriakakis C,Tsakalides P.Robust Time DelayEstimation for Sound Source Localization in NoisyEnvironments[C]//Proc.of IEEE ASSP Workshop onApplications of Signal Processing to Audio and Acoustics.New York,USA:[s.n.],1997.

二级参考文献32

1吕萍,颜永红.基于回归分析的语音识别快速自适应算法[J].声学学报,2005,30(3):222-228. 被引量：4
2郭春霞,裘雪红.基于MFCC的说话人识别系统[J].电子科技,2005,18(11):53-56. 被引量：19
3徐向华,朱杰,郭强.决策树结构对说话人自适应影响的研究[J].声学学报,2006,31(1):42-47. 被引量：3
4胡文吉,王让定.基于小波包分析的特征参数提取[J].宁波大学学报（理工版）,2007,20(1):51-54. 被引量：3
5Quatieri T E.离散时间语音信号处理-原理与应用[M].赵胜辉,刘家康,谢湘,等,译.北京:电子工业出版社,2004.
6Duda R O, Hart P E, Stork D G. Pattern Classification. 2nd Edi- tion. New York,USA: John Wiley & Sons, 2000.
7Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19 (7) : 711 -720.
8Chen Lifen, Liao Hongyuan, Ko M T, et al. A New LDA-Based Face Recognition System Which Can Solve the Small Sample Size Problem. Pattern Recognition, 2000, 33 (10) : 1713 - 1726.
9Li Haifeng, Jiang Tao, Zhang Keshu. Efficient and Robust Feature Extraction by Maximum Margin Criterion. IEEE Trans on Neural Networks, 2006, 7 ( l ) : 157 - 165.
10Roweis S T, Saul L K. Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science, 2000, 290 ( 5500 ) : 2323 - 2326.

共引文献13

1张素敏,苏东林,王炜.改进的基于决策树的说话人在线聚类[J].光学精密工程,2010,18(1):227-233. 被引量：1
2陈伟,李辉,张琨磊.基于扰动属性投影的说话人确认系统[J].计算机工程,2012,38(2):186-188.
3张琦,王霞,孙焘.高斯混合模型下的残留回波抑制算法[J].西安交通大学学报,2013,47(4):11-16.
4杨毅,陈国顺,鲍长春.基于空间声学特征的说话人分类算法[J].北京工业大学学报,2013,39(7):1029-1033.
5王运生,牛保宁.基于BoF的高效音乐过滤指纹[J].科学技术与工程,2014,22(21):136-140.
6卢官明,左加阔.基于二维局部保持鉴别分析的特征提取算法[J].南京邮电大学学报（自然科学版）,2014,34(5):1-8. 被引量：8
7张凤仪,夏秀渝,冉国敬,何礼,叶于林.多声源环境下的鲁棒说话人识别[J].计算机系统应用,2015,24(4):32-37. 被引量：1
8沈燕,肖仲喆,李冰洁,周孝进,周强,陶智.采用GW-MFCC模型空间参数的语音情感识别[J].计算机工程与应用,2015,51(10):219-222. 被引量：1
9吕英,罗森林,高晓芳,谢尔曼,潘丽敏.采用2D-Haar声学特征超向量的快速特定音频识别方法[J].声学学报,2015,40(5):739-750. 被引量：2
10陈展.基于微格矢量化编码与缺陷跟踪的汉语语音数据采集研究[J].价值工程,2016,35(2):149-151. 被引量：2

1何坚强,张焕春.基于TrueTime工具箱的网络控制系统仿真研究[J].微计算机信息,2004,20(1):33-34. 被引量：9
2郭志强,杨杰.核判别保局投影的人脸识别算法[J].电路与系统学报,2011,16(4):24-29. 被引量：1
3傅磊,戴冠中.一类具有随机时延的网络化控制系统的广义预测控制[J].测控技术,2007,26(9):29-32. 被引量：3
4邬春学,韩文冬.基于Internet的网络控制系统端到端时延分析[J].计算机工程,2007,33(22):158-160. 被引量：7
5鲁珂,赵继东,叶娅兰,曾家智.保局投影算法在图像检索中的应用研究[J].计算机应用研究,2006,23(12):56-58. 被引量：5
6张国印,楼宋江.无关性判别保局算法及其在人脸识别中的应用[J].中国图象图形学报,2011,16(1):66-71. 被引量：3
7张文盛,刘忠宝.基于Matlab仿真的数据降维实验设计[J].实验技术与管理,2016,33(9):119-121. 被引量：3
8张建明,刘俊宁,杜丹.基于中心域的LPP算法研究[J].计算机工程与设计,2011,32(9):3128-3130.
9孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2
10朱畅华,裴昌幸,李建东,肖海云.基于线性规划的Internet端到端时延的估计[J].电子与信息学报,2004,26(3):446-452. 被引量：7

计算机工程

2013年第8期

浏览历史

内容加载中请稍等...

基于声学融合特征的说话人分类方法研究

参考文献11

二级参考文献32

共引文献13

相关作者

相关机构

相关主题

浏览历史