基于虚拟教师蒸馏模型的说话人确认方法被引量：1

Speaker Verification Based on Teacher-Free Knowledge Distillation Model

下载PDF

导出

摘要无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署。针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概率分布的优势,在轻量级残差网络的基础上构建虚拟教师说话人确认模型(teacher-free speaker verification model,Tf-SV)。同时引入空间共享而通道分离的动态激活函数和附加角裕度损失函数,使所提模型在特征表达、训练效率以及模型压缩后性能等方面的水平得到极大提升,最终达到无文本说话人确认模型能够在存储或者计算资源有限设备上部署的目的。基于VoxCeleb1数据集的实验表明,虚拟教师说话人确认模型的等错误率(EER)降低到3.4%。与已有成果相比,指标有明显提升,证明了在说话人确认任务上所提压缩模型的有效性。 The text-independent speaker verification models achieve powerful performance through complex network structure and changeable feature extraction methods, however, they need huge memory consumption and incremental computing costs, which makes it difficult to deploy the models on resource-limited hardware facilities. Focusing on this problem, this research takes advantage of the teacher-free knowledge distillation(Tf-KD)model, which can bring one hundred percent classification accuracy and smoothing output probability distribution to establish a teacher-free speaker verification(Tf-SV)model based on a lightweight residual network. At the same time, the spatial-shared and channel-wise dynamic rectified linear units function and the additive angular margin loss function(AAM-Softmax)are introduced, which greatly improve the performance of the proposed model in terms of feature expression, training efficiency and compressed model’s capabilities, and finally achieve the aim of deploying the given Tf-SV model on limited-storage or limited-computing facilities. Based on the VoxCeleb1 dataset, experimental results show that the equal error rate(EER)of the Tf-SV model is reduced to 3.4%. This is a significant improvement over the published results, and demonstrates the effectiveness of the compression model on the speaker verification task.

作者肖金壮李瑞鹏纪盟盟 XIAO Jinzhuang;LI Ruipeng;JI Mengmeng(College of Electronic Information Engineering,Hebei University,Baoding,Hebei 071000,China)

机构地区河北大学电子信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2022年第8期198-203,共6页 Computer Engineering and Applications

基金河北省自然科学基金面上项目(H2016201201) 河北省高等学校科学技术研究重点项目(ZD2016149)。

关键词虚拟教师知识蒸馏动态激活函数附加角裕度损失函数模型压缩说话人确认 teacher-free knowledge distillation dynamic rectified linear units function additive angular margin loss function model compression speaker verification

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1曾春艳,马超峰,王志锋,朱栋梁,赵楠,王娟,刘聪.深度学习框架下说话人识别研究综述[J].计算机工程与应用,2020,56(7):8-16. 被引量：9
2胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：29
3单传辉.深度单峰梯形神经网络[J].计算机工程与应用,2018,54(23):7-13. 被引量：3
4李江昀,赵义凯,薛卓尔,蔡铮,李擎.深度神经网络模型压缩综述[J].工程科学学报,2019,41(10):1229-1239. 被引量：42

二级参考文献28

1荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
2Bouzid M.Robust quantization of LPC parameters for speech communication over noisy channel[C]//Proceedings of the 2nd International Conference on the Applications of DigtialInformation and Web Technologies, Aug 2009 : 713-718.
3Zhang X Y, Guo Y L,Hou X M.A speech recognition method of isolated words based on modified LPC ceps- trum[C]//Proceedings of the IEEE International Confer- ence on Granular Computing,Nov 2007:481-485.
4Hosseinzadeh D, Krishnan S.Combining vocal source and MFCC features for enhanced speaker recognition perfor- mance using GMMs[C]//Proceedings of the IEEE 9th Workshop on Multimedia Signal Processing, Oct 2007: 365-368.
5Skowronski M D,Harris J G.Increased MFCC filter band- width for noise-robust phoneme recognition[C]//Proc of IEEE Int'l Conf on Acoustics Speech and Signal Pro- cessing, 2002 : 801-804.
6Ezzaidi H, Rouat J.Pitch and MFCC dependent GMM models for Speaker Identification systems[C]//Proceedings of the Canadian Conference on Electrical and Computer Engineering, May 2004 : 43-44.
7Shannon B J,Paliwal K K.Feature extraction fxom higher- lag autocorrelation coefficients for robust speech recog- nition[J].Speech Communication, 2006,48(1 1):1458-1485.
8Twang Y, Li B, Jiang X Q, et al.Speaker recognition based on dynamic MFCC parameters[C]//Proceedings of the International Conference on Image Analysis and Signal Processing, Aril, 2009 : 406-409.
9Li Ruwei, Bao Changchun, Dou Huijing.Pith detection method for noisy speech signals based on pre-filter and weighted wavelet coefficients[C]//Proc of the 9th Inter- national Conference on Signal Processing, Beijing, China, 2008 : 530-533.
10Lung S Y.Wavelet feature domain adaptive noise reduc- tion using learning algorithm for text-independent speaker recognition[J].Pattern Recognition, 2007,40 : 2603-2606.

共引文献79

1罗志聪,李鹏博,宋飞宇,孙奇燕,丁昊凡.嵌入式设备的轻量化百香果检测模型[J].农业机械学报,2022,53(11):262-269. 被引量：10
2佘堃,潘松松,田文洪.基于虚拟化的声纹识别系统性能研究[J].成都信息工程学院学报,2015,30(2):107-112. 被引量：1
3朱健晨,刘增力,袁洪,程桐.孤立词识别系统的算法改进及优化[J].计算机仿真,2015,32(9):249-253. 被引量：2
4黄婷,周萍,景新幸,杨青.改进型Mel混合参数应用于说话人识别[J].微电子学与计算机,2016,33(4):60-63. 被引量：2
5王民,曹清菁,贠卫国,周军妮.改进MFCC算法在朱鹮鸣声个体识别中的应用[J].计算机工程与科学,2016,38(5):1052-1056. 被引量：4
6陶佰睿,郭琴,苗凤娟,李青龙.基于自适应Mel滤波器组的MFCC特征提取的SOC设计[J].郑州大学学报（工学版）,2016,37(3):11-15. 被引量：3
7曾霞霞,徐戈,吴征远.基于MFCC特征组合参数的说话人识别研究[J].集美大学学报（自然科学版）,2016,21(4):317-320. 被引量：3
8王晓华,屈雷,张超,蒋细伟.基于Fisher比的Bark小波包变换的语音特征提取算法[J].西安工程大学学报,2016,30(4):452-457. 被引量：6
9张旭清,刘文白,孔戈,高建卫.基于声信号的抹灰墙质量检测及试验研究[J].住宅科技,2017,37(1):45-49. 被引量：3
10朱成名,翟江涛,王彪,戴跃伟.一种基于船舶辐射噪声信号改进Mel倒谱系数的目标识别方法[J].船舶工程,2017,39(1):91-95. 被引量：4

同被引文献13

1王涛,李明.基于LDA模型与语义网络对评论文本挖掘研究[J].重庆工商大学学报（自然科学版）,2019,36(4):9-16. 被引量：12
2刘俊鹏,宋鼎新,张一鸣,黄德根.多种数据泛化策略融合的神经机器翻译系统[J].江西师范大学学报（自然科学版）,2020,44(1):39-45. 被引量：17
3陈云,刘卫光.基于可分解注意力机制的医疗问句语义匹配研究[J].中原工学院学报,2020,31(1):74-79. 被引量：1
4李田.人工智能时代的计算机辅助翻译技术分析[J].粘接,2020,42(5):86-90. 被引量：5
5安苏雅拉,王斯日古楞.基于transformer神经网络的汉蒙机构名翻译研究[J].中文信息学报,2020,34(1):58-62. 被引量：5
6顾迎捷,桂小林,李德福,沈毅,廖东.基于神经网络的机器阅读理解综述[J].软件学报,2020,31(7):2095-2126. 被引量：39
7许晓泓,何霆,王华珍,陈坚.结合Transformer模型与深度神经网络的数据到文本生成方法[J].重庆大学学报（自然科学版）,2020,43(7):91-100. 被引量：13
8张劲,熊国江,邹晓松,袁旭峰.含风电和径流式小水电的多目标环境经济调度[J].电力系统自动化,2021,45(9):38-45. 被引量：13
9张阳,吴宝海,夏卫红,张莹,赵静.变切深工况下恒定切削力约束的多目标进给量优化方法[J].机械工程学报,2021,57(5):242-250. 被引量：10
10张一鸣,刘俊鹏,宋鼎新,黄德根.融合数据增强与多样化解码的神经机器翻译[J].厦门大学学报（自然科学版）,2021,60(4):670-674. 被引量：4

引证文献1

1褚喜之,侯维刚.基于约束优化的神经机器翻译系统研究[J].自动化与仪器仪表,2021(11):120-122. 被引量：4

二级引证文献4

1刘渝.基于移动云计算模式的英语地名机器翻译系统设计[J].自动化与仪器仪表,2022(8):240-244. 被引量：1
2齐娜,马琳.基于Logistic模型的日语翻译机器自动校准方法研究[J].自动化与仪器仪表,2022(7):247-251.
3王薇.轻量型的计算机辅助翻译系统设计[J].自动化与仪器仪表,2022(9):110-114. 被引量：1
4蒋萌,蒋艺,王静.面向微信平台的数据挖掘及行为特征分析[J].自动化与仪器仪表,2023(7):34-37.

1真实验与类实验[J].临床小儿外科杂志,2022,21(3):235-235.
2唐武海,董博,陈华,龚勇.深度神经网络模型压缩方法综述[J].智能物联技术,2021,53(6):1-15. 被引量：7
3蒋正锋,许昕.基于迁移学习和多参数融合优化的COVID-19辅助诊断模型[J].分子影像学杂志,2022,45(2):157-166.
4郑丹凤.中职汽车运用与维修专业教师实践教学能力的提升路径[J].西部素质教育,2022,8(8):119-121. 被引量：1
5张守叶.探究端到端的深度卷积神经网络语音识别[J].软件,2022,43(3):173-176. 被引量：1
6郭自豪,赵恒,刘超峰,王晓磊,赵海洋,秦泳.硅橡胶套管绝缘能力提升研究[J].电工电气,2022(4):58-61. 被引量：1
7杨阳.《政府会计制度》下高校科研项目的财税处理[J].绿色财会,2022(3):34-38.
8张妮,熊若欣,徐林,郑欣欣.教师协同课例研修中的知识建构行为模式分析[J].电化教育研究,2022,43(3):105-112. 被引量：3
9郭琦,姜红,杨金颉,吴克难,满吉.X射线荧光光谱结合深度学习算法可视化检验食品包装纸[J].激光与光电子学进展,2022,59(4):458-464. 被引量：9
10齐振宇,周刚,殷军.一起腐蚀导致隔离开关触头烧蚀事件的分析[J].农村电气化,2022(4):34-37.

计算机工程与应用

2022年第8期

浏览历史

内容加载中请稍等...

基于虚拟教师蒸馏模型的说话人确认方法被引量：1

参考文献4

二级参考文献28

共引文献79

同被引文献13

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于虚拟教师蒸馏模型的说话人确认方法 被引量：1

参考文献4

二级参考文献28

共引文献79

同被引文献13

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于虚拟教师蒸馏模型的说话人确认方法被引量：1