一种基于卷积神经网络的快速说话人识别方法被引量：4

A Fast Speaker Recognition Method Based on Convolutional Neural Network

下载PDF

导出

摘要提出了一种基于Gammatone滤波器倒谱系数(Gammatone Frequency Cepstral-Coefficients,GFCC)动态组合参数的卷积神经网络(Convolutional Neural Networks,CNN)结构来实现快速说话人识别的方法。提取语音样本的GFCC及其一阶差分和二阶差分系数作为代表语音的特征参数,对特征参数进行归一化处理,将得到的统计特征构造成CNN的输入形式。实验结果表明,与通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)相比,提出的模型方法学习速度更快,在提高识别率的同时减少了训练时间和识别时间。 A convolutional neural network structure based on GFCC dynamic combination parameters is proposed to realize fast speaker recognition.Firstly,the GFCC and its first-order and second-order difference coefficients of the speech samples are taken as the characteristic parameters representing the speech.Then the feature parameters are normalized and the statistical features are used as the input of convolution neural network.The experimental results show that compared with GMM-UBM model,the proposed model method has faster learning speed,and reduces the training time and recognition time while improving the recognition rate.

作者蔡倩高勇 CAI Qian;GAO Yong(College of Electronics and Information Engineering,Sichuan University,Chengdu 610065,China)

机构地区四川大学电子信息学院四川大学电子信息学院通信教研室

出处《无线电工程》 2020年第6期447-451,共5页 Radio Engineering

基金四川大学科研资助项目(0020505501743)。

关键词动态组合参数说话人识别一阶差分二阶差分统计特征 dynamic combination parameters speaker recognition first-order difference second-order difference statistical features

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-170. 被引量：30
2林舒都,邵曦.基于i-vector和深度学习的说话人识别[J].计算机技术与发展,2017,27(6):66-71. 被引量：10
3吴明辉,胡群威,李辉.一种基于深度神经网络的话者确认方法[J].计算机应用与软件,2016,33(6):159-162. 被引量：4
4胡青,刘本永.基于卷积神经网络的说话人识别算法[J].计算机应用,2016,36(A01):79-81. 被引量：12
5胡青,刘本永.基于卷积神经网络分类的说话人识别算法[J].信息网络安全,2016(4):55-60. 被引量：6
6李靓,孙存威,谢凯,贺建飚.基于深度学习的小样本声纹识别方法[J].计算机工程,2019,45(3):262-267. 被引量：19
7李晔,张仁智,崔慧娟,唐昆.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报（自然科学版）,2005,45(10):1397-1400. 被引量：37
8胡德敏,程普芳.一种改进的LeNet网络[J].电子科技,2019,32(3):53-56. 被引量：7

二级参考文献77

1李朝晖,迟惠生.听觉外周计算模型研究进展[J].声学学报,2006,31(5):449-465. 被引量：22
2Junqua J C, Mak B, Reaves B. A robust algorithm for word boundary detection in the presence of noise [J]. IEEE Transactions on speech and Audio Processing, 1994, 2(3):406-412.
3Beritelli F, Casale S, Ruggeri G, et al. Performances evaluation and comparision of G. 729/AMR/fuzzy voice activity detectors [J]. IEEE Signal Processing Letters,2002, 9(3): 85-88.
4Pencak J, Neloson D. The NP speech activity detection algorithm [J]. Int Conf Acoustics, Speech and Signal Processing, 1995. 381 - 384.
5Nemer E, Goubran R, Mahmoud S. Robust voice activity detection using higher-order statistics in the LPC residual domain [J]. IEEE Trans Speech and Audio Processing,2001, 9(3): 217-231.
6Woo K H, Yang T Y, Park K J, et al. Robust voice activity detection algorithm for estimating noise spectrum [J].Electronics Letters, 2000, 36(2) : 180 - 181.
7迟惠生杨行峻唐昆.语音信号数字处理[M].北京:电子工业出版社,1995..
8Irino T, Patterson R D. A Dynamic Compressive Gammachirp Auditory Filterbank[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(6): 2222-2232.
9Lyon R F, Katsiamis A G, Drakakiss E M. History and Future of Auditory Filter Models[C]//Proc. of ISCAS'10. Paris, France: Is. n.], 2010: 3809-3812.
10Plack C J, Oxenham A J. Basilar-membrane Nonlinearity Estimated by Pulsation Threshold[J]. Journal of the Acoustical Society of America, 2000, 107(1): 501-507.

共引文献116

1尹生阳,曾维,王胜,胡粒琪,余小平,李亚欣.基于声波信号的岩性智能分类方法[J].吉林大学学报（地球科学版）,2022,52(6):2060-2070. 被引量：4
2江楠,陈洁,肖潘,唐文强,林志泉.基于声纹识别的电力会议多角色语音的分离和识别研究[J].高电压技术,2023,49(S01):40-46. 被引量：2
3沈亚强.低信噪比下基于短时分形维数的语音端点检测[J].仪器仪表学报,2006,27(z3):2310-2312. 被引量：3
4胡军辉,邵忍平,曾泽君.基于谱熵的齿轮故障诊断方法研究[J].机械传动,2007,31(5):84-87. 被引量：5
5刘华平,李昕,徐柏龄,姜宁.语音信号端点检测方法综述及展望[J].计算机应用研究,2008,25(8):2278-2283. 被引量：40
6阙大顺,李星星,胡慧玲.基于分形维的连续语音实时分割技术[J].电讯技术,2008,48(11):33-37. 被引量：2
7王博,郭英,韩立峰.基于熵函数的语音端点检测算法研究[J].信号处理,2009,25(3):368-373. 被引量：16
8张文强,郑翔,周斌.语音激活检测算法的设计与实现[J].现代传输,2010(1):49-54. 被引量：1
9韩立华,王博,段淑凤.语音端点检测技术研究进展[J].计算机应用研究,2010,27(4):1220-1226. 被引量：39
10朱晓晶,侯旭初,崔慧娟,唐昆.基于LPCC和能量熵的端点检测[J].电讯技术,2010,50(6):41-45. 被引量：6

同被引文献33

1侯代文,殷福亮.基于迭代中心差分卡尔曼滤波的说话人跟踪方法[J].电子与信息学报,2008,30(7):1684-1689. 被引量：10
2侯代文,殷福亮,陈喆.基于拟蒙特卡洛滤波的说话人跟踪方法[J].自动化学报,2009,35(7):1016-1021. 被引量：10
3侯代文,殷福亮.基于粒子滤波的交互式多模型说话人跟踪方法[J].电子学报,2010,38(4):835-841. 被引量：13
4戴卫国,程玉胜,王易川.支持向量机对舰船噪声DEMON谱的分类识别[J].应用声学,2010,29(3):206-211. 被引量：10
5曹洁,李伟.一种改进的粒子滤波算法及其在说话人跟踪中的应用[J].小型微型计算机系统,2012,33(3):664-668. 被引量：3
6余路,卜乐平.火焰图像识别中常用算法综述[J].信息技术,2014,38(3):189-193. 被引量：7
7马钰锡,谭励,董旭,于重重.面向智能监控的行为识别[J].中国图象图形学报,2019,24(2):282-290. 被引量：34
8孟庆昕,杨士莪,于盛齐.基于波形结构特征和支持向量机的水面目标识别[J].电子与信息学报,2015,37(9):2117-2123. 被引量：15
9李彬,谢翟,段渭军,杨荣.基于Kinect的课堂教学状态监测系统[J].传感器与微系统,2017,36(1):67-70. 被引量：8
10袁智,胡辉.一种基于双流卷积神经网络跌倒识别方法[J].河南师范大学学报（自然科学版）,2017,45(3):96-101. 被引量：13

引证文献4

1徐丽珍,吴功才.基于青少年在线学习的特定动作识别[J].信息与电脑,2021,33(13):24-26.
2杨海红,王琳娟.强混响及噪声相关背景下说话人跟踪方法[J].无线电工程,2021,51(9):963-970. 被引量：1
3李琳,曹丽英.基于改进SSD算法的农田烟火图像检测研究[J].无线电工程,2022,52(5):783-789. 被引量：5
4张博轩,赵天白,常振兴,蒋翔宇,王少博.基于样本扩充网络的水声目标分类模型优化算法[J].计算机测量与控制,2024,32(4):143-150.

二级引证文献6

1武德彬,刘笑楠,刘振宇,洪军.融合双重注意力机制的目标检测模型研究[J].无线电工程,2023,53(3):542-548. 被引量：1
2张劲松,陈明举,邓元实,王鸿.融合注意力机制的R-YOLOv5电力检修车机械臂识别网络[J].无线电工程,2023,53(3):619-627. 被引量：1
3李旭茹.农业图像去噪算法研究[J].山西电子技术,2023(2):108-110. 被引量：1
4薛珮芸,师晨康,白静,赵建星,汪思斌.基于自适应门限融合策略的语音去噪算法[J].无线电工程,2024,54(4):1026-1033.
5刘一铭,张运楚,周燕菲,张欣毅.基于改进YOLOv5s的焦炉烟火识别算法[J].计算机测量与控制,2024,32(5):186-192.
6吴桂玲,张耀军,葛伟,韩敏.基于改进YOLOv8的大气污染烟雾检测方法研究[J].信阳农林学院学报,2024,34(2):107-115.

1张辰,张华,高宁化,陈豪.基于仿射传播聚类的说话人识别算法[J].传感器与微系统,2020,39(2):120-123. 被引量：2
2曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：9
3韩侣,周林华,马文联,郑伟杰,马涛,李天星.基于深度学习的小样本声纹识别研究[J].应用数学进展,2020,9(1):30-37. 被引量：1
4张海峰,刘璜.基于包络回归的语言清晰度客观评价方法[J].传感器与微系统,2020,39(1):50-52. 被引量：1
5李卫国,刘柏岑,许文文.基于差分系数和参数辨识的配电网故障选线[J].吉林电力,2020,48(1):28-33.
6王铮,傅山.基于改进身份向量提取的短语音说话人确认[J].小型微型计算机系统,2019,40(11):2264-2268. 被引量：3
7张学祥,雷菊阳.基于DNN与基音周期的说话人识别[J].计算机与现代化,2020,0(1):122-126. 被引量：5
8付佳,田婷,唐铭,何凌,尹恒.结合PECGTFs和SSMC的腭裂语音咽擦音自动检测算法[J].计算机工程与应用,2019,55(24):102-109. 被引量：4
9王晓华,要鹏超,马丽萍,王文杰,张蕾.车间环境下机器人语音控制的特征提取算法[J].西安电子科技大学学报,2020,47(2):16-22. 被引量：4
10Lamia Bouafif,Noureddine Ellouze.Speech-Music-Noise Discrimination in Sound Indexing of Multimedia Documents[J].Sound & Vibration,2018,52(6):2-10.

无线电工程

2020年第6期

浏览历史

内容加载中请稍等...

一种基于卷积神经网络的快速说话人识别方法被引量：4

参考文献8

二级参考文献77

共引文献116

同被引文献33

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于卷积神经网络的快速说话人识别方法 被引量：4

参考文献8

二级参考文献77

共引文献116

同被引文献33

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于卷积神经网络的快速说话人识别方法被引量：4