-
题名多负例对比机制下的跨模态表示学习
被引量:1
- 1
-
-
作者
丁凯旋
陈雁翔
赵鹏铖
朱玉鹏
盛振涛
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第19期184-192,共9页
-
基金
国家自然科学基金(61972127,61672201)。
-
文摘
为了有效地获取到更有区别性的跨模态表示,提出了一种基于多负例对比机制的跨模态表示学习方法--监督对比的跨模态表示学习(supervised contrastive cross-modal representation learning,SCCMRL),并将其应用于视觉模态和听觉模态上。SCCMRL分别通过视觉编码器和音频编码器提取得到视听觉特征,利用监督对比损失让样本数据与其多个负例进行对比,使得相同类别的视听觉特征距离更近,不同类别的视听觉特征距离更远。此外,该方法还引入了中心损失和标签损失来进一步保证跨模态表示间的模态一致性和语义区分性。为了验证SCCMRL方法的有效性,基于SCCMRL方法构建了相应的跨模态检索系统,并结合Sub_URMP和XmediaNet数据集进行了跨模态检索实验。实验结果表明,SCCMRL方法相较于当前常用的跨模态检索方法取得了更高的mAP值,同时验证了多负例对比机制下的跨模态表示学习具有可行性。
-
关键词
跨模态表示学习
多模态特征融合
多负例对比机制
监督对比损失
跨模态检索
-
Keywords
cross-modal representation learning
multimodal feature fusion
multi-negatives contrastive mechanism
supervised contrastive loss
cross-modal retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名脸由音生:语音驱动的静动态人脸生成方法
- 2
-
-
作者
赵璐璐
陈雁翔
赵鹏铖
朱玉鹏
盛振涛
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第18期122-129,共8页
-
基金
国家自然科学基金(61972127,61672201)。
-
文摘
语音驱动人脸生成旨在挖掘语音片段和人脸之间的静动态关联性,进而由给定的语音片段生成对应的人脸图像。然而已有的研究方法大多只考虑其中的一种关联性,且对静态人脸生成的研究严格依赖于时序对齐的音视频数据,在一定程度上限制了静态模型的使用范围。提出了一种基于条件生成对抗网络的语音驱动静动态人脸生成模型(SDVF-GAN)。该模型基于自注意力机制构建语音编码器网络以获得更为准确的听觉特征表达,并将其作为静态生成网络和动态生成网络的输入;静态生成网络利用基于投影层的图像判别器合成出属性一致(年龄、性别)且高质量的静态人脸图像,动态生成网络利用基于注意力思想的嘴唇判别器和图像判别器合成出嘴唇同步的动态人脸序列。实验利用所构建的属性对齐的Voice-Face数据集和公共的LRW数据集分别训练静态人脸生成网络和动态人脸生成网络。结果表明,该模型综合研究了语音和人脸之间的属性对应和嘴唇同步关系,实现了质量更高且关联性和同步性更强的人脸图像生成。
-
关键词
语音驱动
静动态人脸生成
属性关联
嘴唇同步
生成对抗网络
-
Keywords
voice-driven
static and dynamic face generation
consistent attributes
lip synchronization
generative adversarial networks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-