期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多模态生成对抗网络和三元组损失的说话人识别 被引量:4
1
作者 陈湟康 《电子与信息学报》 EI CSCD 北大核心 2020年第2期379-385,共7页
为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨... 为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。 展开更多
关键词 说话人识别 跨模态 生成对抗网络 3元组损失
下载PDF
基于具有深度门的多模态长短期记忆网络的说话人识别 被引量:11
2
作者 陈湟康 《激光与光电子学进展》 CSCD 北大核心 2019年第3期130-136,共7页
为了在说话人识别任务中有效融合音视频特征,提出一种基于深度门的多模态长短期记忆(LSTM)网络。首先对每一类单独的特征建立一个多层LSTM模型,并通过深度门连接上下层的记忆存储单元,增强上下层的联系,提升该特征本身的分类性能。同时... 为了在说话人识别任务中有效融合音视频特征,提出一种基于深度门的多模态长短期记忆(LSTM)网络。首先对每一类单独的特征建立一个多层LSTM模型,并通过深度门连接上下层的记忆存储单元,增强上下层的联系,提升该特征本身的分类性能。同时,通过在不同模型之间共享连接隐藏层输出与各个门单元的权重,学习每一层模型之间的联系。实验结果表明,该方法能有效融合音视频特征,提高说话人识别的准确率,并且对干扰具有一定的稳健性。 展开更多
关键词 图像处理 说话人识别 长短期记忆网络 融合 深度门 权重共享
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部