基于非线性堆叠双向网络的端到端声纹识别

End to End Voiceprint Recognition Based on Nonlinear Stacked Bidirectional Network

下载PDF

导出

摘要传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。 features of the speech signal.Finally,the SGD optimizer is used to optimize the training mode.The experimental results show that the proposed method can make full use of the characteristics of the speech sequence signal and has strong time series comprehensiveness and nonlinear expression ability.The constructed model has strong integrity and better recognition effect than GRU and LSTM models.

作者王芷悦崔琳 WANG Zhi-yue;CUI Lin(School of Electronic Information, Xi’an Polytechnic University, Xi’an 710699, China;School of Marine Science and Technology,Northwestern Polytechnical University,Xi’an 710072,China)

机构地区西安工程大学电子信息学院西北工业大学航海学院

出处《计算机与现代化》 2022年第3期13-17,共5页 Computer and Modernization

基金国家自然科学基金青年项目(61901347)。

关键词声纹识别端到端时序特征长短时记忆堆叠网络非线性 voiceprint recognition end to end sequential characteristic long short-term memory stacked network nonlinear

分类号 TN912 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1郝敏,刘航,李扬,简单,王俊影.基于聚类分析与说话人识别的语音跟踪[J].计算机与现代化,2020,0(4):7-13. 被引量：4
2项扬,殷锋,袁平.基于x-vector嵌入与BLSOM模型的声纹聚类系统[J].现代计算机,2020,26(9):3-7. 被引量：1
3李宏伟,吴庆祥.智能传感器中神经网络激活函数的实现方案[J].传感器与微系统,2014,33(1):46-48. 被引量：8

二级参考文献17

1王茜,董学仁,尉吉勇,马玉真.神经网络技术在智能传感器系统中的应用与发展[J].自动化仪表,2004,25(7):1-3. 被引量：2
2刘君华.智能传感器系统[M]{H}西安:西安电子科技大学出版社,200037.
3Myers D J,Hutchinson R A. Efficient implementation of piecewise linear activation function for digital VLSI neural networks[J].{H}Electronics Letters,1989,(24):1662-1663.doi:10.1049/el:19891114.
4Volder J. The CORDIC trigonometric computingtechnique[J].IRE Trans on Electronic Computers,1959,(05):330-334.
5Walther J. A unified algorithm for elementary functions[A].Berlin,1971.379-385.
6张智明,张仁杰.神经网络激活函数及其导数的FPGA实现[J].现代电子技术,2008,31(18):139-142. 被引量：13
7张萧,黄晞,仲伟汉,张亮.Sigmoid函数及其导函数的FPGA实现[J].福建师范大学学报（自然科学版）,2011,27(2):62-65. 被引量：13
8黄建军,张雄伟,张亚非,邹霞.时频字典学习的单通道语音增强算法[J].声学学报,2012,37(5):539-547. 被引量：13
9屈俊玲,李鸿燕.基于计算听觉场景分析的混合语音信号分离算法研究[J].计算机应用研究,2014,31(12):3822-3824. 被引量：6
10周国鑫,高勇.基于GMM-UBM模型的说话人辨识研究[J].无线电工程,2014,44(12):14-17. 被引量：5

共引文献10

1殷凡姣,顾强,李美蓉,高超,侯林源.基于DSP Builder的双曲正切函数的FPGA实现[J].电子质量,2015(8):66-70.
2蒋昂波,王维维.ReLU激活函数优化研究[J].传感器与微系统,2018,37(2):50-52. 被引量：92
3张尧,沈海斌.非饱和区扩展的RNN算法优化[J].传感器与微系统,2018,37(3):41-43. 被引量：2
4吴和生.监狱工作中智能语音技术的应用[J].电声技术,2020,44(7):22-24.
5夏伦腾,张莉,吴飞.基于物联网技术的宠物防丢可穿戴设备系统[J].电子技术应用,2021,47(2):28-32. 被引量：3
6张焕,张庆,于纪言.激活函数的发展综述及其性质分析[J].西华大学学报（自然科学版）,2021,40(4):1-10. 被引量：41
7张焕,张庆,于纪言.卷积神经网络中激活函数的性质分析与改进[J].计算机仿真,2022,39(4):328-334. 被引量：5
8贾万龙,王万雄.基于BP神经网络的合肥都市圈GDP预测[J].西安电子科技大学学报（社会科学版）,2022,32(1):37-44. 被引量：1
9吕召阳,聂雪媛,赵奥博.基于CNN机翼气动系数预测[J].北京航空航天大学学报,2023,49(3):674-680. 被引量：3
10罗宇,胡维平,吴华楠.一种基于聚类的门控卷积网络语声分离方法[J].应用声学,2023,42(5):1099-1105.

1马骁.基于双向网络智能EPG系统的设计与实现[J].中国有线电视,2022(2):87-89.
2陈雅迪,李娟,张雪蕾.基于流通数据分析的高借阅型图书时序特征研究[J].当代图书馆,2022(1):4-8.
3刘悦,张雷,辛山,张宇.融入时空注意力机制的深度学习网络视频动作分类[J].中国科技论文,2022,17(3):281-287. 被引量：5
4郑佳碧,杨振国,刘文印.基于细粒度混杂平衡的营销效果评估方法[J].广东工业大学学报,2022,39(2):55-61.
5邱子健,靳红梅,高南,徐轩,朱津宏,李庆,王子清,徐拥军,申卫收.江苏省农业碳排放时序特征与趋势预测[J].农业环境科学学报,2022,41(3):658-669. 被引量：30
6周文远,王名扬,井钰.基于AttentionSBGMC模型的引文情感和引文目的自动分类研究[J].数据分析与知识发现,2021,5(12):48-59. 被引量：5
7冯蕾,黄菊秀,赵冉冉.深度卷积神经网络图像超分辨率重建方法研究[J].现代科学仪器,2022,39(1):205-208. 被引量：3
8解晓静,张艺潇,张帆,李盛,郑在壮.基于数字化水位的琼东北地区构造应力场时序特征分析[J].地震科学进展,2022,52(3):110-119.
9王琛,王颖,郑涛,戴则梅,张凯锋.基于ResNet-LSTM网络和注意力机制的综合能源系统多元负荷预测[J].电工技术学报,2022,37(7):1789-1799. 被引量：41
10孙立香,孙晓娴,刘成菊,靖文.人群环境中基于深度强化学习的移动机器人避障算法[J].信息与控制,2022,51(1):107-118. 被引量：18

计算机与现代化

2022年第3期

浏览历史

内容加载中请稍等...

基于非线性堆叠双向网络的端到端声纹识别

参考文献3

二级参考文献17

共引文献10

相关作者

相关机构

相关主题

浏览历史