期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
结合有监督联合一致性自编码器的跨音视频说话人标注 被引量:2
1
作者 柳欣 李鹤洋 +1 位作者 钟必能 杜吉祥 《电子与信息学报》 EI CSCD 北大核心 2018年第7期1635-1642,共8页
跨模态说话人标注旨在利用说话人的不同生物特征进行相互匹配和互标注,可广泛应用于各种人机交互场合。针对人脸和语音两种不同模态生物特征之间存在明显的"语义鸿沟"问题,该文提出一种结合有监督联合一致性自编码器的跨音视... 跨模态说话人标注旨在利用说话人的不同生物特征进行相互匹配和互标注,可广泛应用于各种人机交互场合。针对人脸和语音两种不同模态生物特征之间存在明显的"语义鸿沟"问题,该文提出一种结合有监督联合一致性自编码器的跨音视频说话人标注方法。首先分别利用卷积神经网络和深度信念网络分别对人脸图像和语音数据进行判别性特征提取,接着在联合自编码器模型的基础上,提出一种新的有监督跨模态神经网络模型,同时嵌入softmax回归模型以保证模态间和模态内样本的相似性,进而扩展为3种有监督一致性自编码器神经网络模型来挖掘音视频异构特征之间的潜在关系,从而有效实现人脸和语音的跨模态相互标注。实验结果表明,该文提出的网络模型能够有效的对说话人进行跨模态标注,效果显著,取得了对姿态变化和样本多样性的鲁棒性。 展开更多
关键词 跨模态说话人标注 有监督联合自编码器 softmax回归模型 有监督神经网络模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部