-
题名结合有监督联合一致性自编码器的跨音视频说话人标注
被引量:2
- 1
-
-
作者
柳欣
李鹤洋
钟必能
杜吉祥
-
机构
华侨大学计算机科学与技术学院
计算机视觉与模式识别厦门市重点实验室
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2018年第7期1635-1642,共8页
-
基金
国家自然科学基金(61673185
61572205
+2 种基金
61673186)
福建省自然科学基金(2017J01112)
华侨大学中青年创新人才培育项目(ZQN-309)~~
-
文摘
跨模态说话人标注旨在利用说话人的不同生物特征进行相互匹配和互标注,可广泛应用于各种人机交互场合。针对人脸和语音两种不同模态生物特征之间存在明显的"语义鸿沟"问题,该文提出一种结合有监督联合一致性自编码器的跨音视频说话人标注方法。首先分别利用卷积神经网络和深度信念网络分别对人脸图像和语音数据进行判别性特征提取,接着在联合自编码器模型的基础上,提出一种新的有监督跨模态神经网络模型,同时嵌入softmax回归模型以保证模态间和模态内样本的相似性,进而扩展为3种有监督一致性自编码器神经网络模型来挖掘音视频异构特征之间的潜在关系,从而有效实现人脸和语音的跨模态相互标注。实验结果表明,该文提出的网络模型能够有效的对说话人进行跨模态标注,效果显著,取得了对姿态变化和样本多样性的鲁棒性。
-
关键词
跨模态说话人标注
有监督联合自编码器
softmax回归模型
有监督神经网络模型
-
Keywords
Cross-modal speaker tagging
supervised joint correspondence auto-encoder
Softmax regression
supervised neural network model
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-