-
题名基于虚拟教师蒸馏模型的说话人确认方法
被引量:1
- 1
-
-
作者
肖金壮
李瑞鹏
纪盟盟
-
机构
河北大学电子信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第8期198-203,共6页
-
基金
河北省自然科学基金面上项目(H2016201201)
河北省高等学校科学技术研究重点项目(ZD2016149)。
-
文摘
无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署。针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概率分布的优势,在轻量级残差网络的基础上构建虚拟教师说话人确认模型(teacher-free speaker verification model,Tf-SV)。同时引入空间共享而通道分离的动态激活函数和附加角裕度损失函数,使所提模型在特征表达、训练效率以及模型压缩后性能等方面的水平得到极大提升,最终达到无文本说话人确认模型能够在存储或者计算资源有限设备上部署的目的。基于VoxCeleb1数据集的实验表明,虚拟教师说话人确认模型的等错误率(EER)降低到3.4%。与已有成果相比,指标有明显提升,证明了在说话人确认任务上所提压缩模型的有效性。
-
关键词
虚拟教师知识蒸馏
动态激活函数
附加角裕度损失函数
模型压缩
说话人确认
-
Keywords
teacher-free knowledge distillation
dynamic rectified linear units function
additive angular margin loss function
model compression
speaker verification
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名应用AAM损失函数的无文本说话人识别
被引量:1
- 2
-
-
作者
肖金壮
李瑞鹏
纪盟盟
-
机构
河北大学电子信息工程学院
-
出处
《激光杂志》
CAS
北大核心
2021年第11期87-91,共5页
-
基金
河北省自然科学基金面上项目(No.H2016201201)、河北省高等学校科学技术研究重点项目(No.ZD2016149)。
-
文摘
针对无文本说话人识别存在短语音提取特征困难和模型训练效率不高的问题,提出利用附加角裕度的损失函数(Additive angular margin loss,AAM-Softmax)可以在特征表达的角度空间中最大化分类界限的优势,同时结合为提高网络训练效率和稳定性而改进的残差网络ResNet,来获得更具辨别性的嵌入特征,最终达到提升端到端短语音无文本说话人识别模型的性能。实验表明,在说话人辨认任务中Top-1和Top-5的准确度分别达到90.1%和97.8%,说话人确认任务中的等错误率(EER)降低到3.8%,与基于VoxCeleb1数据集的已有成果相比,三种指标的性能皆有明显提升,证明了所提方法的有效性。
-
关键词
附加角裕度损失函数
说话人识别
无文本语音
深度学习
端到端
-
Keywords
additive angular margin loss function
speaker recognition
text-independent
deep learning
end-to-end
-
分类号
TN249
[电子电信—物理电子学]
-
-
题名增量角度域损失和多特征融合的地标识别
被引量:3
- 3
-
-
作者
毛雪宇
彭艳兵
-
机构
武汉邮电科学研究院
南京烽火天地通信科技有限公司
-
出处
《中国图象图形学报》
CSCD
北大核心
2020年第8期1567-1577,共11页
-
基金
国家重点研发计划项目(2017YFB1400704)。
-
文摘
目的地标识别是图像和视觉领域一个应用问题,针对地标识别中全局特征对视角变化敏感和局部特征对光线变化敏感等单一特征所存在的问题,提出一种基于增量角度域损失(additive angular margin loss,ArcFace损失)并对多种特征进行融合的弱监督地标识别模型。方法使用图像检索取Top-1的方法来完成识别任务。首先证明了ArcFace损失参数选取的范围,并于模型训练时使用该范围作为参数选取的依据,接着使用一种有效融合局部特征与全局特征的方法来获取图像特征以用于检索。其中,模型训练过程分为两步,第1步是在谷歌地标数据集上使用ArcFace损失函数微调ImageNet预训练模型权重,第2步是增加注意力机制并训练注意力网络。推理过程分为3个部分:抽取全局特征、获取局部特征和特征融合。具体而言,对输入的查询图像,首先从微调卷积神经网络的特征嵌入层提取全局特征;然后在网络中间层使用注意力机制提取局部特征;最后将两种特征向量横向拼接并用图像检索的方法给出数据库中与当前查询图像最相似的结果。结果实验结果表明,在巴黎、牛津建筑数据集上,特征融合方法可以使浅层网络达到深层预训练网络的效果,融合特征相比于全局特征(mean average precision,mAP)值提升约1%。实验还表明在神经网络嵌入特征上无需再加入特征白化过程。最后在城市级街景图像中本文模型也取得了较为满意的效果。结论本模型使用ArcFace损失进行训练且使多种特征相似性结果进行有效互补,提升了模型在实际应用场景中的抗干扰能力。
-
关键词
地标识别
增量角度域损失函数
注意力机制
多特征融合
卷积神经网络(CNN)
-
Keywords
landmark recognition
additive angular margin loss function(arcface loss function)
attention mechanism
multiple features fusion
convolutional neural network(CNN)
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-