基于多模态共享网络的自监督语音-人脸跨模态关联学习方法

Self-supervised Voice-face Cross-modal Association Learning Method via Multi-modal Shared Network

下载PDF

导出

摘要现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面,构建一个公共的特征空间;接着,通过多模态共享网络的残差块来挖掘复杂的非线性数据关系,并利用其中权重共享的全连接层来增强语音与人脸特征向量之间的关联性;最后,使用K均值聚类算法生成的伪标签作为监督信号来指导度量学习,从而完成4种跨模态关联学习任务。实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,多项评价指标相较于现有基线方法提升1%~4%的准确率。 Existing voice-face cross-modal association learning methods still face challenges in semantic correlation and supervised information,and have not yet fully considered the semantic information interaction between voice and face.To solve these problems,a self-supervised association learning method based on a multi-modal shared network was proposed.Firstly,the voice and face features were mapped into the unit sphere to establish a shared feature space.Secondly,complex nonlinear data relationships were explored using the residual block of the multi-modal shared network,while a weight-sharing fully connected layer was utilized to enhance the correlation between voice and face.Finally,pseudo-labels,generated by the K-means clustering algorithm,were utilized as supervised signals,guiding the metric learning process to accomplish the four cross-modal association learning tasks.Experimental results show that the method proposed in this paper achieves favorable outcomes in voice-face cross-modal verification,matching,and retrieval tasks,and several evaluation metrics improve 1%~4%accuracy compared with existing baseline methods.

作者李俊屿卜凡亮谭林周禹辰毛璟仪 LI Jun-yu;BU Fan-liang;TAN Lin;ZHOU Yu-chen;MAO Jing-yi(School of Information Network Security,People's Public Security University of China,Beijing 100038,China;First Research Institution of the Ministry of Public Security of PRC,Beijing 100048,China)

机构地区中国人民公安大学信息网络安全学院公安部第一研究所

出处《科学技术与工程》北大核心 2024年第7期2804-2812,共9页 Science Technology and Engineering

基金中国人民公安大学安全防范工程双一流专项(2023SYL08)。

关键词语音-人脸跨模态多模态共享网络伪标签关联学习 voice-face cross-modal multi-modal shared network pseudo label association learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1周晨怡,黄靖,杨丰,刘娅琴.利用特征距离信息引导决策融合的多模态生物特征识别方法[J].科学技术与工程,2020,20(10):4036-4042. 被引量：3
2于淼,宁春玉,石乐民,吕冰垚.一种适用于多模态医学图像融合的自适应脉冲耦合神经网络改进算法[J].科学技术与工程,2020,20(22):9116-9121. 被引量：9
3李春贺,陶帅.基于多模态信息联合判断的驾驶员危险行为监测系统[J].科学技术与工程,2021,21(21):9012-9019. 被引量：4
4郭睿华,宋俊鹏,王文旭,杨琨.基于视触数据融合的多模态细分类系统[J].科学技术与工程,2022,22(36):16116-16122. 被引量：3
5郭文强,赵艳,徐紫薇,肖秦琨.基于多模态的贝叶斯网络疼痛识别方法[J].科学技术与工程,2022,22(28):12505-12511. 被引量：1
6朱明航,柳欣,于镇宁,徐行,郑书凯.基于双向伪标签自监督学习的跨人脸-语音匹配方法[J].计算机研究与发展,2023,60(11):2638-2649. 被引量：1

二级参考文献49

1苗启广,王宝树.基于局部对比度的自适应PCNN图像融合[J].计算机学报,2008,31(5):875-880. 被引量：39
2李美丽,李言俊,王红梅,张科.基于NSCT和PCNN的红外与可见光图像融合方法[J].光电工程,2010,37(6):90-95. 被引量：48
3温黎茗,彭力,徐红.基于NSCT和PCNN的遥感图像融合算法[J].计算机工程,2012,38(11):196-198. 被引量：7
4郝爱枝,郑晟.基于NSCT-PCNN变换的多传感器图像融合[J].科学技术与工程,2014,22(1):45-48. 被引量：12
5蔡昂,刘晓敏.基于虹膜角点密度和瞳孔大小的健康检测系统设计与分析[J].江苏科技信息,2019,36(3):54-56. 被引量：2
6刘超,王容川,许晓伟,于海武.基于改进LBP的手指静脉识别算法[J].计算机仿真,2019,36(1):381-386. 被引量：13
7李洪亮,马启明,杜栓平.一种基于典型相关分析的特征融合算法[J].声学与电子工程,2015(1):20-23. 被引量：3
8潘荣华,陈秀宏,曹翔.一种新的有监督的局部保持典型相关分析算法[J].计算机工程与科学,2015,37(6):1175-1182. 被引量：7
9彭进业,杨瑞靖,冯晓毅,王文星,彭先霖.人脸疼痛表情识别综述[J].数据采集与处理,2016,31(1):43-55. 被引量：14
10曹如胜,倪世宏,张鹏,奚显阳.一种基于云模型的贝叶斯网络EM参数学习算法[J].计算机科学,2016,43(8):194-198. 被引量：10

共引文献15

1宋艳艳,朱倩,朱建伟,穆晨光.基于区域特征脉冲耦合神经网络的航空发动机涡轮叶片DR图像融合[J].数据采集与处理,2021,36(1):164-175. 被引量：5
2夏浩杰,肖剑,盛亮.基于忆阻脉冲耦合神经网络的图像边缘检测[J].软件导刊,2021,20(6):225-229. 被引量：1
3黄珍,潘颖,苑毅.基于改进神经网络的图像融合技术[J].机电工程技术,2021,50(7):161-163. 被引量：2
4李小敏,陈英.基于分数层融合的多生物特征融合识别[J].长江信息通信,2021,34(10):7-11. 被引量：1
5邓晨曦,周国雄.基于活跃度的脉冲耦合神经网络的苹果腐烂分割方法[J].湖南工业职业技术学院学报,2022,22(1):9-13.
6任子晖,蔡蔓利,缪小波,李航.基于全尺度跳跃连接的视网膜血管分割算法[J].科学技术与工程,2022,22(7):2776-2783. 被引量：4
7雷光波,万方.基于边缘保持滤波的多聚焦图像融合仿真[J].计算机仿真,2022,39(4):129-132.
8姜迈,沙贵君,李宁.结合tetrolet与红外显著性特征提取的红外与可见光融合[J].科学技术与工程,2022,22(30):13398-13405. 被引量：1
9易灿南,郑艳芳,李开伟,胡鸿,刘美英,何佳媛.基于多模态信息的地面钻孔作业肌肉疲劳分析[J].安全与环境学报,2023,23(6):1952-1960.
10张伟.基于力控与多传感器数据融合的智能清洗研究[J].铁道建筑技术,2023(10):75-78. 被引量：1

1刘钇汛,刘志浩,高钦和,曹大志.基于精细参数化建模的重载轮胎接地特性分析[J].计算机仿真,2023,40(11):243-251.
2吴夏,宋仕斌,姜山,王毅,邓力为.5G共建共享网络可视化安全态势感知研究[J].信息安全研究,2024,10(3):277-283.
3李清泉.大学生语体转换与身份研究[J].现代语言学,2024,12(2):1178-1186.
4《网络安全标准实践指南—网络安全产品互联互通告警信息格式》发布[J].自动化博览,2024,41(1):3-3.
5关瑞元,申荣卫,石浪.单座小型赛车车架设计与仿真[J].时代汽车,2024(2):125-127.
6魏娜.现行医保结算方式对医院会计核算的影响研究[J].经济与社会发展研究,2024(3):52-54.
7王晓晗,肖鹏安,宋达,李晨威,姚素新.自主PDM数据建模方法及CAD集成[J].机械工程师,2024(3):85-90.

科学技术与工程

2024年第7期

浏览历史

内容加载中请稍等...

基于多模态共享网络的自监督语音-人脸跨模态关联学习方法

参考文献6

二级参考文献49

共引文献15

相关作者

相关机构

相关主题

浏览历史