基于均值特征和改进深度神经网络的说话人识别算法被引量：2

Speaker recognition based on mean feature and improved deep neural network

下载PDF

导出

摘要为提高神经网络在说话人识别应用中的识别性能,提出基于高斯增值矩阵特征和改进深度卷积神经网络的说话人识别算法。算法首先通过最大后验概率提取基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征的高斯均值矩阵,并对特征进行噪声适应性补偿,以增强信号的帧间关联和说话人特征信息,然后采用改进的深度卷积神经网络进一步对准帧间信息,以提高说话人识别特征对背景噪声的适应性。实验结果表明,相比于高斯混合模型-通用背景模型等识别框架及传统MFCC等特征,该算法可取得更高的识别准确率和最小的识别均方误差。 In order to improve the recognition performance,a speaker recognition algorithm based on Gaussian valueadded matrix features and improved deep convolutional neural network is proposed.In the algorithm,the adaptive Gaussian mean matrix based on Mel frequency cepstrum coefficient(MFCC)features is first extracted by the maximum posterior probability,and the noise adaptive compensation for features is performed to enhance interframe correlation and speaker feature information.Then,an improved deep convolutional neural network is used to further align the interframe information to improve the feature learning for speaker recognition and the adaptability to the back-ground noise environment.The experimental results show that,compared with Gaussian mixture model-general background model(GMM-UBM)framework and traditional MFCC features,the algorithm proposed in this paper achieves the best recognition accuracy and the least recognition mean square error.

作者罗春梅张风雷 LUO Chunmei;ZHANG Fenglei(School of Chemical and Mechanical Engineering,Eastern Liaoning University,Dandong 118000,Liaoning,China)

机构地区辽东学院化工与机械学院

出处《声学技术》 CSCD 北大核心 2021年第4期503-507,共5页 Technical Acoustics

基金辽宁省教育厅科学研究项目(LNSJYT201904)。

关键词说话人识别梅尔频率倒谱系数(MFCC) 深度卷积神经网络高斯均值矩阵 speaker recognition Mel frequency cepstrum coefficient(MFCC) deep convolutional neural network Gaussian mean matrix

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1黄雅婷,石晶,许家铭,徐波.鸡尾酒会问题与相关听觉模型的研究现状与展望[J].自动化学报,2019,45(2):234-251. 被引量：20
2李海峰,陈婧,马琳,薄洪健,徐聪,李洪伟.维度语音情感识别研究综述[J].软件学报,2020,31(8):2465-2491. 被引量：14
3牛晓可,黄伊鑫,徐华兴,蒋震阳.基于听皮层神经元感受野的强噪声环境下说话人识别[J].计算机应用,2020,40(10):3034-3040. 被引量：3
4仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：11
5陈湟康,陈莹.基于具有深度门的多模态长短期记忆网络的说话人识别[J].激光与光电子学进展,2019,56(3):130-136. 被引量：11
6李煦,王子腾,王晓飞,付强,颜永红.采用性别相关的深度神经网络及非负矩阵分解模型用于单通道语音增强[J].声学学报,2019,44(2):221-230. 被引量：12
7曾歆,张雄伟,孙蒙,苗晓孔,姚琨.基于GMM模型和LPC-MFCC联合特征的声道谱转换研究[J].声学技术,2020,39(4):451-455. 被引量：8
8刘伟波,曾庆宁,罗瀛,郑展恒.低信噪比环境下语音识别的鲁棒性方法研究[J].声学技术,2019,38(6):650-656. 被引量：6

二级参考文献35

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2YUYibiao,WANGShuozhong.Speaker identification based on complete feature corpus and evaluation of mutual information[J].Chinese Journal of Acoustics,2005,24(3):280-288. 被引量：1
3俞一彪,王朔中.文本无关说话人识别的全特征矢量集模型及互信息评估方法[J].声学学报,2005,30(6):536-541. 被引量：7
4吴志勇,蔡莲红.基于动态贝叶斯网络的音视频双模态说话人识别[J].计算机研究与发展,2006,43(3):470-475. 被引量：11
5YU Yibiao YUAN Dongmei XUE Feng.A non-linear frequency transform and its application to speaker recognition[J].Chinese Journal of Acoustics,2009,28(3):280-288. 被引量：1
6杨琳,张建平,颜永红.单通道语音增强算法对汉语语音可懂度影响的研究[J].声学学报,2010,35(2):248-253. 被引量：17
7陈存宝,赵力,邹采荣.基于极大似然线性回归的模型合成和特征映射进行说话人确认[J].声学学报,2011,36(1):81-87. 被引量：2
8刘凤增,李国辉,李博.OM-LSA和小波阈值去噪结合的语音增强[J].计算机科学与探索,2011,5(6):547-552. 被引量：3
9韩文静,李海峰,马琳.考虑情感程度相对顺序的维度语音情感识别[J].信号处理,2011,27(11):1658-1663. 被引量：2
10黄建军,张雄伟,张亚非,邹霞.时频字典学习的单通道语音增强算法[J].声学学报,2012,37(5):539-547. 被引量：13

共引文献74

1潘梦鹞,吕小勇,陈少伟,郇锐铁,王锋.基于AI智能语音技术线上教学的创新与实践[J].创新创业理论研究与实践,2022(24):170-173.
2陈华光.AutoCAD的动画制作[J].电脑编程技巧与维护,2000(4):86-89. 被引量：1
3曹毅,黄子龙,张威,刘晨,李巍.N-DenseNet的城市声音事件分类模型[J].西安电子科技大学学报,2019,46(6):9-16. 被引量：6
4肖易明,张海剑,孙洪,丁昊.引入注意力机制的视频声源定位[J].信号处理,2019,35(12):1969-1978. 被引量：3
5曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：9
6常新旭,张杨,杨林,寇金桥,王昕,徐冬冬.利用门控循环编解码网络的语音增强方法[J].计算机工程与设计,2020,41(6):1762-1767. 被引量：1
7任凯龙,汪毅,陈晓冬,蔡怀宇.用于腹腔镜扶持器控制的特定人语音识别算法[J].激光与光电子学进展,2020,57(18):374-382. 被引量：3
8许春冬,徐琅,周滨,凌贤鹏.单通道语音增强技术的研究现状与发展趋势[J].江西理工大学学报,2020,41(5):55-64. 被引量：1
9肖鑫鑫.复杂噪声环境下的普通话测试系统设计[J].信息技术,2020,44(11):78-82. 被引量：1
10钟争平.室外录音的降噪和污点去除实践[J].科技资讯,2020,18(30):1-2.

同被引文献15

1罗方.地质雷达在隧道健康诊断中的应用[J].长安大学学报（自然科学版）,2006,26(3):51-54. 被引量：24
2段师剑,王远传,赵勇.超声法检测钢管混凝土缺陷的分析与探讨[J].无损检测,2018,40(12):74-78. 被引量：7
3JIANG Wenbin,LIU Peilin,WEN Fei.Speech Magnitude Spectrum Reconstruction from MFCCs Using Deep Neural Network[J].Chinese Journal of Electronics,2018,27(2):393-398. 被引量：9
4朱宇,王楠.基于梅尔倒谱系数的路面板下脱空识别的应用研究[J].青海大学学报（自然科学版）,2018,36(3):27-33. 被引量：1
5王振武,何关瑶.核函数选择方法研究[J].湖南大学学报（自然科学版）,2018,45(10):155-160. 被引量：11
6马伟斌,柴金飞.运营铁路隧道病害检测、监测、评估及整治技术发展现状[J].隧道建设（中英文）,2019,39(10):1553-1562. 被引量：56
7王利恒,赵智浩.基于MFCC-SVM的海洋机械噪声监测系统[J].自动化与仪表,2020,35(12):54-58. 被引量：4
8聂昊,鲁玺龙,郭文志,李永久,韩广杰,赵兴春.多模态生物特征识别技术的研究进展[J].生命科学仪器,2020,18(5):20-28. 被引量：5
9南兆营.基于声纹图和网络迁移的说话人识别[J].网络安全技术与应用,2021(6):35-38. 被引量：1
10孙哲南,赫然,王亮,阚美娜,冯建江,郑方,郑伟诗,左旺孟,康文雄,邓伟洪,张杰,韩琥,山世光,王云龙,茹一伟,朱宇豪,刘云帆,何勇.生物特征识别学科发展报告[J].中国图象图形学报,2021,26(6):1254-1329. 被引量：29

引证文献2

1宋灏祯,陈科伟,董芳艳.基于多场景的视听身份验证研究[J].机械制造,2023,61(4):30-33.
2代晓景,暴学志,柴雪松,周城光,阎兆立.基于声音特征的隧道衬砌空洞识别方法研究[J].声学技术,2024,43(1):135-141.

1赵英宝,黄丽敏.电力设备含噪非平稳信号特征的模态分析研究[J].计算机仿真,2020,37(11):118-121. 被引量：3
2崔宇超,何淼楹,胡诗雨.基于帧间辅助的视频人群计数[J].计算机应用,2021,41(S01):69-74. 被引量：1
3岳向阳,赵忠盖,刘飞.基于栈式降噪自编码器的发酵过程回归建模[J].计算机测量与控制,2021,29(7):136-139.
4魏泊岩,田庆国,葛宝臻.基于彩色编码相移条纹的相机标定[J].光电工程,2021,48(1):72-80. 被引量：3
5李键红,吴亚榕,詹瑾.挖掘理想重建图像自相似性的超分辨率[J].湖南大学学报（自然科学版）,2021,48(8):149-160. 被引量：4
6王家盛,郭其威,吴松,马建敏.基于特征相对贡献度对加权Mel倒谱的改进[J].声学技术,2021,40(3):408-414. 被引量：4
7田杰,邱利利.短波通信的多进制LDPC编码技术研究[J].通信电源技术,2021,38(4):140-142.
8孟宗,郜文清,潘作舟,张光雅,樊凤杰.G-KSVD字典及其在滚动轴承故障信号稀疏表示中的应用[J].中国机械工程,2021,32(15):1776-1785. 被引量：2
9鲁祖坤,陈飞强,孙一凡,刘哲,黄龙.导航信号功率增强对阵列接收机的影响分析[J].系统工程与电子技术,2021,43(9):2581-2587. 被引量：2
10Bronson Syiem,Sushanta Kabir Dutta,Juwesh Binong,Lairenlakpam Joyprakash Singh.Comparison of Khasi Speech Representations with Different Spectral Features and Hidden Markov States[J].Journal of Electronic Science and Technology,2021,19(2):155-162.

声学技术

2021年第4期

浏览历史

内容加载中请稍等...

基于均值特征和改进深度神经网络的说话人识别算法被引量：2

参考文献8

二级参考文献35

共引文献74

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于均值特征和改进深度神经网络的说话人识别算法 被引量：2

参考文献8

二级参考文献35

共引文献74

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于均值特征和改进深度神经网络的说话人识别算法被引量：2