-
题名基于多模态生成对抗网络和三元组损失的说话人识别
被引量:4
- 1
-
-
作者
陈莹
陈湟康
-
机构
江南大学轻工过程先进控制教育部重点实验室
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2020年第2期379-385,共7页
-
基金
国家自然科学基金(61573168)~~
-
文摘
为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。
-
关键词
说话人识别
跨模态
生成对抗网络
3元组损失
-
Keywords
Speaker recognition
Cross-modal
Generative Adversarial Network(GAN)
Triplet-loss
-
分类号
TN912.3
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于具有深度门的多模态长短期记忆网络的说话人识别
被引量:11
- 2
-
-
作者
陈湟康
陈莹
-
机构
江南大学轻工过程先进控制教育部重点实验室
-
出处
《激光与光电子学进展》
CSCD
北大核心
2019年第3期130-136,共7页
-
基金
国家自然科学基金(61573168)
-
文摘
为了在说话人识别任务中有效融合音视频特征,提出一种基于深度门的多模态长短期记忆(LSTM)网络。首先对每一类单独的特征建立一个多层LSTM模型,并通过深度门连接上下层的记忆存储单元,增强上下层的联系,提升该特征本身的分类性能。同时,通过在不同模型之间共享连接隐藏层输出与各个门单元的权重,学习每一层模型之间的联系。实验结果表明,该方法能有效融合音视频特征,提高说话人识别的准确率,并且对干扰具有一定的稳健性。
-
关键词
图像处理
说话人识别
长短期记忆网络
融合
深度门
权重共享
-
Keywords
image processing
speaker recognition
long short-term memory network
fusion
depth-gate
weight sharing
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
-