基于卷积神经网络的说话人识别算法被引量：12

Speaker recognition based on convolutional neural network

下载PDF

导出

摘要语音信号是一个时变信号,受个体、环境等影响较大。为提高说话人识别率,对原始语音信号进行一定预处理是必要的,提出一种利用卷积神经网络的说话人识别算法。该算法利用卷积神经网络的卷积和降采样两种操作对说话人识别中的语音信号进行预处理,通过构建一维和二维卷积操作,对预处理后的信号提取梅尔频率倒谱系数特征参数,并采用经典的通用背景模型对说话人进行识别模型建模。通过自建库和TIMIT标准库测试表明,该算法与经典的直接基于梅尔频率倒谱系数特征和通用背景模型的方法相比,识别率提升了8%～15%,并且有效地降低了算法的时间复杂度和空间复杂度。 Speech signal is a time varying signal which influences by speaker and environment easily.In order to improve speaker recognition rate,some preprocesses are needed.A speaker recognition algorithm based on Convolutional Neural Network（ CNN） was proposed.In CNN,there were two main operations named convolution and down-sampling respectively,and the two operations were adopted to preprocess speech signal before feature extraction with MFCC（ Mel Frequency Cepstrum Coefficient） processing,and then the classical universal background model method was used to model the speaker features.Experimental results based on a self-built database and TIMIT database show that the proposed method outperforms the classical method using MFCC features and GMM（ Gaussian Mixture Model）-UBM（ Universal Background Model） classifier,with respect to recognition rate improvement by 8% to 15% and time and space complexity reduction.

作者胡青刘本永

机构地区贵州大学大数据与信息工程学院贵州大学智能信息处理研究所

出处《计算机应用》 CSCD 北大核心 2016年第A01期79-81,200,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60862003) 科技部国际合作项目(2009DFR10530) 贵州省工业科技攻关项目(黔科合GY字(2010)2054) 教育部高等院校博士点基金资助项目(20095201110002) 贵州大学研究生创新基金资助项目(2015081)

关键词卷积神经网络说话人识别通用背景模型梅尔频率倒谱系数预处理 Convolutional Neural Network（CNN） speaker recognition universal background model Mel Frequency Cepstrum Coefficient（MFCC） preprocessing

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1RABINER L R, JUANG B H. Fundamentals of speech recognition [ M]. Englewood Cliffs: PTR Prentice Hall, 1993:23 -51.
2ATAL B S. Automatic recognition of speakers from their voices[ J]. Proceedings of the IEEE, 1976,64(4) : 460 -475.
3DAVIS S B, MERMELSTEIN P. Comparison of parametric repre- sentations for monosyllabic word recognition in continuously spoken sentences[ J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1980, 28(4) : 357 -366.
4REYNOLDS D A, ROSE R C. Robust text-independent speaker i- dentification using Gaussian mixture speaker models [ J]. IEEE Transactions on Speech and Audio Processing, 1995, 3(1) : 72 - 83.
5SOONG F K, ROSENBERG A E, JUANG B H, et al. Report: a vector quantization approach to speaker recognition[ J]. AT&T Tech- nical Journal, 1987,66(2) : 14 -26.
6WAN V, CAMPBELL W M. Support vector machines for speaker verification and identification [ C]// Neural Networks for Signal Processing X, 2000: Proceedings of the 2000 IEEE Signal Processing Society Workshop. Piscataway: IEEE. 2000, 2:775 - 784.
7REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Ganssian mixture models [ J]. Digital Signal Processing, 2000, 10(1/2/3) : 19 -41.
8鲁晓倩.基于VP树和GMM的说话人识别研究[D].合肥:中国科学技术大学,2012:34-38.
9LECUN Y . Generalization and network design strategies [ D ] .Toronto: University of Toronto, 1989:143 - 155.
10ABDEL-HAMID O, MOHAMED A-R, JIANG H, et al. Convolutional neural networks for speech recognition[ J]. IEEE/ ACM Transactions on Audio, Speech and Language Processing, 2014, 22(10) :. 1533 - 1545.

同被引文献118

1孙冬梅,裘正定.生物特征识别技术综述[J].电子学报,2001,29(z1):1744-1748. 被引量：143
2刘红星,戴蓓蒨,陆伟.基于共振峰谐波能量的语音端点检测[J].清华大学学报（自然科学版）,2008,48(S1):754-759. 被引量：11
3刘敬伟,徐美芝,郑忠国,程乾生.基于DTW的语音识别和说话人识别的特征选择[J].模式识别与人工智能,2005,18(1):50-54. 被引量：13
4李晔,张仁智,崔慧娟,唐昆.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报（自然科学版）,2005,45(10):1397-1400. 被引量：37
5白维,曾成碧,王涛.高压电气设备绝缘在线监测的研究[J].中国测试技术,2006,32(1):64-66. 被引量：12
6于明,袁玉倩,董浩,王哲.一种基于MFCC和LPCC的文本相关说话人识别方法[J].计算机应用,2006,26(4):883-885. 被引量：14
7荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
8白静,张雪英.Gaussian核SVM在抗噪语音识别中的应用[J].计算机工程与设计,2009,30(17):4061-4063. 被引量：1
9蒋晔,唐振民.GMM文本无关的说话人识别系统研究[J].计算机工程与应用,2010,46(11):179-182. 被引量：27
10展领,景新幸.基于VQ-MAP和SVM融合的说话人识别系统[J].计算机工程与应用,2011,47(13):136-138. 被引量：5

引证文献12

1闫龙川,白东霞,刘万涛,刘殷,李莉敏.人工智能技术在云计算数据中心能量管理中的应用与展望[J].中国电机工程学报,2019,39(1):31-42. 被引量：37
2谢洁,韩德志.基于卷积神经网络的拒绝服务攻击数据流检测[J].现代计算机（中旬刊）,2018(9):43-47.
3甄倩倩,张庭亮.说话人识别综述[J].科技资讯,2017,15(25):241-243. 被引量：1
4胡志隆,文畅,谢凯,贺建飚.联合HMM-UBM与RVM的声纹密码识别算法[J].计算机工程,2018,44(11):129-134. 被引量：4
5吴禄慎,常参参,王晓辉,陈华伟.基于局部调节卷积神经网络的图像识别方法[J].计算机工程,2018,44(12):240-246. 被引量：6
6贾艳洁,陈曦,于洁琼,王连明.基于特征语谱图和自适应聚类SOM的快速说话人识别[J].科学技术与工程,2019,19(15):211-218. 被引量：5
7侯一民,李永平.基于卷积神经网络的孤立词语音识别[J].计算机工程与设计,2019,40(6):1751-1756. 被引量：20
8叶硕,褚钰,王祎,李田港.语音识别中声学模型研究综述[J].计算机技术与发展,2020,30(3):181-186. 被引量：5
9蔡倩,高勇.一种基于卷积神经网络的快速说话人识别方法[J].无线电工程,2020,50(6):447-451. 被引量：4
10张道杰,张馨文.语音编码在自动化互动模型中的应用研究[J].电力系统保护与控制,2020,48(12):147-153. 被引量：1

二级引证文献88

1王铁君,王维兰.基于本体的唐卡图像标注方法[J].吉林大学学报（工学版）,2020,50(1):289-296. 被引量：2
2何海洋,路玉,乔保军.一种改进Octave神经网络的图像识别模型[J].河南大学学报（自然科学版）,2020(6):700-706.
3谢伯林,王正国,朱佩芳,严密,张军军.大鼠视网膜光化学损伤的病理特征[J].第三军医大学学报,2000,22(5):442-444. 被引量：18
4石国伟.油田云计算数据中心建设模式分析[J].中国管理信息化,2019,22(10):86-87. 被引量：1
5陈新世,丹国萍.中职数据中心建设趋势研究[J].中国有线电视,2019,0(7):736-739. 被引量：2
6和征,李彦蓉,雷文浩,何玲玲,梁加昕.基于云计算的废纸回收供应链数据中心构建研究[J].价值工程,2019,38(29):157-160.
7张春光,袁军宝,张金帅,梅玉娜.高效能数据中心全链路能耗管理技术研究[J].通信电源技术,2020,37(2):48-50. 被引量：1
8张翔,陈欣.多任务自主学习的肺癌诊断方法[J].计算机工程,2020,46(2):292-297. 被引量：1
9吴俊杰.基于非单调共轭梯度算法的声纹识别机器人控制系统设计[J].计算机测量与控制,2020,28(1):116-119.
10江俊敏.计算机图像识别技术的应用分析[J].集成电路应用,2020,37(2):50-51. 被引量：2

1武宁,肖星星,冯瑞.家用机器人的说话人识别系统[J].计算机工程,2012,38(2):207-209. 被引量：1
2胡青,刘本永.基于卷积神经网络分类的说话人识别算法[J].信息网络安全,2016(4):55-60. 被引量：6
3李香萍.MATLAB在说话人识别算法中的应用[J].实验室研究与探索,2008,27(1):70-72.
4王娜,刘政连.基于DTW的孤立词语音识别系统的研究与实现[J].九江学院学报（自然科学版）,2010,23(3):31-33. 被引量：2
5胡峰松,王磊.一种基于小波包分析的说话人识别算法[J].小型微型计算机系统,2014,35(7):1610-1614. 被引量：1
6侯焱,张高伟.说话人识别算法在嵌入式仿真环境的实现[J].计算机仿真,2007,24(5):62-65.
7江太辉.神经网络预测模型的说话人识别算法[J].五邑大学学报（自然科学版）,2003,17(1):23-26.
8申志生,于明.说话人识别算法的定点DSP实现[J].单片机与嵌入式系统应用,2011,11(3):78-79. 被引量：3
9陶洁,张会林.一种改进型HMM说话人识别算法[J].微型机与应用,2012,31(21):31-32. 被引量：2
10张渤,张代林,陈幼平.用于无纺布缺陷检测的Gabor滤波器参数研究[J].武汉理工大学学报,2012,34(7):129-133. 被引量：6

计算机应用

2016年第A01期

浏览历史

内容加载中请稍等...

基于卷积神经网络的说话人识别算法被引量：12

参考文献12

同被引文献118

引证文献12

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络的说话人识别算法 被引量：12

参考文献12

同被引文献118

引证文献12

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络的说话人识别算法被引量：12