基于深度神经网络的说话人识别模型研究被引量：3

Research on Speaker Recognition Model Based on Depth Neural Network

下载PDF

导出

摘要在传统的说话人识别中,普遍采用的是高斯混合模型(GMM)及GMM-UBM模型。然而GMM及GMM-UBM模型由于对噪声非常敏感及对语音的长度有一定的要求,所以对说话人数据库质量要求很高。并且传统的机器学习算法(GMM,GMM-UBM)属于浅层以及不完全的学习,识别率随着识别人数的增加下降的剧烈,模型的鲁棒性相对较差。并且存在训练时间长,收敛困难的缺点,从而限制了说话人识别在实际中的应用。深度神经网络(DNN)具有强大的非线性特性以及对数据具有良好的模式分类能力,对语音信号的质量及长度要求不高,并且对噪声的容忍度较高,所以论文把深度神经网络引入到了说话人识别中。 In the traditional speaker recognition, Gaussian mixture model （GMM） and GMM-UBM model are widely used. However, GMM and GMM-UBM models are very demanding on the quality of the speaker database because they are very sensitive to noise and have certain requirements on the length of the speech. And the traditional machine learning algorithm （GMM, GMM-UBM） belongs to the shallow and incomplete learning. The recognition rate decreases with the increase of the identification number, and the robustness of the model is relatively poor. And there isa short training time,convergence difficulties, thus limiting the speaker recognition in practice. Deep neural network （DNN） has strong nonlinear characteristics and good data classification ability of the model, the quality and length of the speech signal is less demanding,and the noise tolerance is higher, so the paper introduces the deep neural network In the speaker recognition.

作者李浩鲍鸿张晶 LI Hao;BAO Hong;ZHANG Jing(School of Automation,Guangdong University of Technology,Guangzhou 510006,China;Institute of Information Science and Technology,Guangdong University of Foreign Studies,Guangzhou 510420,China)

机构地区广东工业大学自动化学院广东外语外贸大学信息科学技术学院

出处《电脑与信息技术》 2018年第5期1-3,8,共4页 Computer and Information Technology

基金教育部人文社科项目(项目编号:17YJCZH242)

关键词说话人识别高斯混合模型鲁棒性深度神经网络 speaker recognition Gauss mixture model Robustness deep neural networks

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1赵彩光,张树群,雷兆宜.基于改进对比散度的GRBM语音识别[J].计算机工程,2015,41(5):213-218. 被引量：4
2张娟,蒋芸,胡学伟,沈健.基于快速持续对比散度的卷积受限玻尔兹曼机[J].计算机工程,2016,42(9):174-179. 被引量：7

二级参考文献50

1Bengio Y.Learning Deep Architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
2Dahl G E,Ranzato M,Mohamed A,et al.Phonerecognition with the Mean-covariance Restricted Boltzmann Machine[C]//Proceedings of the 24th Annual Conference on Neural Information Processing Systems.Berlin,Germany:Springer,2010:469-477.
3Mohamed A,Dahl G E,Hinton G,et al.Acoustic Modeling Using Deep Belief Networks[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(1):14-22.
4Salakhutdinov R,Hinton G.An Efficient Learning Procedure for Deep Boltzmann Machines[J].Neural Computation,2012,24(8):1967-2006.
5Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.
6Fischer A,Igel C.An Introduction to Restricted Boltzmann Machines[C]//Proceedings of Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications.Berlin,Germany:Springer,2012:14-36.
7Mohamed A,Dahl G,Hinton G.Deep Belief Networks for Phone Recognition[C]//Proceedings of Workshop on Deep Learning for Speech Recognition and Related Applications.Berlin,Germany:Springer,2009.
8Hinon G E.Training Products of Experts by Minimizing Contrastive Divergence[J].Neural Computation,2002,14(8):1771-1800.
9Tóth L,Grósz T.A Comparison of Deep Neural Network Training Methods for Large Vocabulary Speech Recognition[C]//Proceedings of the 16th International Conference on Text,Speech,and Dialogue.Berlin,Germany:Springer,2013:36-43.
10Tieleman T.Training Restricted Boltzmann Machines Using Approximations to the Likelihood Gradient[C]//Proceedings of the 25th International Conference on Machine Learning.New York,USA:ACM Press,2008:1064-1071.

共引文献9

1贾海蓉,王栋,郭欣.基于DNN的子空间语音增强算法[J].太原理工大学学报,2016,47(5):647-650. 被引量：1
2王媛媛,周涛,吴翠颖.深度学习及其在医学图像分析中的应用研究[J].电视技术,2016,40(10):118-126. 被引量：15
3黄玉蕾,罗晓霞,刘笃仁.MFSC系数特征局部有限权重共享CNN语音识别[J].控制工程,2017,24(7):1507-1513. 被引量：9
4杨健,周涛,郭丽芳,张飞飞,梁蒙蒙.基于布谷鸟搜索和深度信念网络的肺部肿瘤图像识别算法[J].计算机应用,2018,38(11):3225-3230. 被引量：6
5尹静,闫河.提升分类受限玻尔兹曼机性能的策略[J].计算机工程与设计,2019,40(1):250-255. 被引量：2
6郑皓,赵庶旭,屈睿涛.一种用于城市交通的优化声音识别仿真[J].计算机技术与发展,2019,29(2):60-64. 被引量：4
7李琛,王延杰,梁梦媞.结合CS-LBP和DBN的非受控人脸识别[J].计算机工程与设计,2019,40(5):1430-1434. 被引量：2
8秦磊,汤鲲.基于改进深度置信网络的中文实体检测[J].电子设计工程,2020,28(3):38-42.
9房依婷,黄雨琦,于幸,刘悦文.双任务范式在帕金森发病早期筛查中的应用进展[J].中国疗养医学,2023,32(6):591-594. 被引量：3

同被引文献41

1刘红星,戴蓓蒨,陆伟.基于共振峰谐波能量的语音端点检测[J].清华大学学报（自然科学版）,2008,48(S1):754-759. 被引量：11
2邵妍,霍春宝,金曦.基于改进的高斯混合模型算法的说话人识别[J].辽宁工业大学学报（自然科学版）,2010,30(1):8-10. 被引量：4
3杜晓青,于凤芹.基于HHT倒谱系数的说话人识别算法[J].计算机工程与应用,2014,50(3):198-202. 被引量：4
4张琳,王珊,秦晓瑜,陈海霞,王连明.基于听觉仿生模型的乐器识别[J].东北师大学报（自然科学版）,2014,46(1):75-79. 被引量：5
5胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：28
6赵立辉,毛竹,霍春宝,杨红喆.基于GMM-SVM的说话人识别系统研究[J].工矿自动化,2014,40(5):49-53. 被引量：7
7张怡然,白静,王力.基于多窗频谱估计和平滑幅度谱包络的Mel频率倒谱系数(MFCC)改进算法[J].科学技术与工程,2014,22(19):253-256. 被引量：6
8刘芳,孙小琪,王林山.S-分布时滞随机神经网络的适定性和均方指数吸引性[J].滨州学院学报,2014,30(6):7-13. 被引量：1
9白燕燕,胡晓霞,郑三婷.基于听觉特性的声纹识别系统的研究[J].电子设计工程,2015,23(4):85-87. 被引量：4
10王伟,韩纪庆,郑铁然,郑贵滨,陶耀.基于Fisher判别字典学习的说话人识别[J].电子与信息学报,2016,38(2):367-372. 被引量：6

引证文献3

1贾艳洁,陈曦,于洁琼,王连明.基于特征语谱图和自适应聚类SOM的快速说话人识别[J].科学技术与工程,2019,19(15):211-218. 被引量：5
2张学祥,雷菊阳.基于DNN与基音周期的说话人识别[J].计算机与现代化,2020,0(1):122-126. 被引量：4
3熊华煜,余勤,任品,雒瑞森.基于机器学习的音频分类[J].计算机工程与设计,2021,42(1):156-160. 被引量：1

二级引证文献8

1张明键,张悦.基于语谱图HOG特征的两步法长沙话说话人识别[J].信息技术与信息化,2020(8):188-192. 被引量：1
2张明键,张悦.基于语谱图和深度置信网络的方言自动辨识与说话人识别[J].电子技术与软件工程,2020(14):151-154. 被引量：1
3乐妍.基于人工神经网络无监督聚类方法的青少年体质综合评价模型研究[J].江苏科技信息,2020,37(33):76-79.
4许文杰,杨淇善.基于特征参数LPCC与AMDF的异常声音检测[J].长江信息通信,2021,34(10):110-113. 被引量：2
5汪兰兰,蔡昌新.基于改进线性预测基音频率的语音情感识别系统[J].科学技术与工程,2022,22(26):11524-11532. 被引量：3
6王家宁.基于频率特征的共享钢琴自动调音系统设计[J].自动化与仪器仪表,2023(1):172-177. 被引量：1
7张秋余,王煜坤.基于改进Inception网络的语音分类模型[J].计算机应用,2023,43(3):909-915. 被引量：1
8马志举,杜庆治,龙华,邵玉斌.基于改进语谱图的深度学习说话人识别[J].现代电子技术,2023,46(21):32-38.

1顾淑琴.数形结合思想在初中数学教学中的实践研究[J].神州,2018,0(27):139-139.
2牟建娜.体育游戏在体育教学中的应用探究[J].新课程教学（电子版）,2018,0(5):85-85.
3刘宇,冯胜,王桂玲.深度神经网络在无源定位中的应用研究[J].雷达科学与技术,2018,16(4):423-428.
4马意彭,王震,董雨楠,钟雅婷.基于生物特征的声纹识别算法及实现[J].数码世界,2018,0(6):239-239.
5熊若鑫,宋元斌,王宇轩.基于DNN的作业姿势评估方法及应用[J].中国安全科学学报,2018,28(5):105-110. 被引量：10
6刘旭.卫星移动通信系统发展和应用[J].电子技术与软件工程,2018(19):40-40. 被引量：1
7张家溢.数据库分析在提升高中生学习水平中的应用[J].高中生学习,2018,0(8):16-16.
8王旭东,王冬霞,周城旭.基于改进BFDNN的远距离语音识别方法[J].电脑知识与技术,2018,14(5X):182-185. 被引量：1
9林香亮,袁瑞,孙玉秋,王超,陈长胜.支持向量机的基本理论和研究进展[J].长江大学学报（自然科学版）,2018,15(17):48-53. 被引量：36
10张宏达.英语语音中音的长度探讨[J].山东外语教学,1988,9(Z1):160-164.

电脑与信息技术

2018年第5期

浏览历史

内容加载中请稍等...

基于深度神经网络的说话人识别模型研究被引量：3

参考文献2

二级参考文献50

共引文献9

同被引文献41

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的说话人识别模型研究 被引量：3

参考文献2

二级参考文献50

共引文献9

同被引文献41

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的说话人识别模型研究被引量：3