基于细粒度特征融合的部分多模态哈希

Partial Multimodal Hashing Based on Fine-grained Feature Fusion

下载PDF

导出

摘要多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F^(3)模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F^(3)模型能够有效地实现部分多模态哈希,并可应用于大规模多模态数据检索. Due to the exponential growth of multimodal data,traditional databases are confronted with challenges in terms of storage and retrieval.Multimodal hashing is able to effectively reduce the storage cost of databases and improve retrieval efficiency by fusing multimodal features and mapping them into binary hash codes.Although many works on multimodal hashing perform well,there are also three important problems to be solved:(1)Existing methods tend to consider that all samples are modality-complete,while in practical retrieval scenarios,it is also common for samples to miss partial modalities;(2)Most methods are based on shallow learning models,which inevitably limits models’learning ability and affects the final retrieval performance;(3)Some methods based on deep learning framework have been proposed to address the issue of weak learning ability,but they directly use coarse-grained feature fusion methods,such as concatenation,after extracting features from different modalities,which fails to effectively capture deep semantic information,thereby weakening the representation ability of hash codes and affecting the final retrieval performance.In response to the above problems,the PMH-F^(3) model is proposed.This model implements partial multimodal hashing for the case of samples missing partial modalities.The model is based on deep network architecture,and the Transformer encoder is used to capture deep semantics in self-attention manner,achieving fine-grained multimodal feature fusion.Sufficient experiments are conducted on MIR Flickr and MS COCO datasets and the best retrieval performance is achieved.The results of experiments show that PMH-F^(3) model can effectively implement partial multimodal hashing and can be applied to large-scale multimodal data retrieval.

作者殷崭祚李博涵王萌黄瑞龙吴文隆王昊奋 YIN Zhan-Zuo;LI Bo-Han;WANG Meng;HUANG Rui-Long;WU Wen-Long;WANG Hao-Fen(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China;Collaborative Innovation Center of Novel Software Technology and Industrialization,Nanjing 211106,China;National Engineering Laboratory for Integrated Aero-Space-Ground-Ocean Big Data Application Technology(Northwestern Polytechnical University),Xi’an 710119,China;College of Design and Innovation,Tongji University,Shanghai 200092,China)

机构地区南京航空航天大学计算机科学与技术学院软件新技术与产业化协同创新中心空天地海一体化大数据应用技术国家工程实验室(西北工业大学) 同济大学设计创意学院

出处《软件学报》 EI CSCD 北大核心 2024年第3期1074-1089,共16页 Journal of Software

基金国家重点研发计划(2020YFB1708100) “十四五”民用航天技术预先研究项目(D020101) 国家自然科学基金(62172351) 高安全系统的软件开发与验证技术工业和信息化部重点实验室资助项目(NJ2018014) 河北省软件工程重点实验室项目。

关键词部分多模态哈希多模态数据检索细粒度特征融合 partial multimodal hashing multimodal data retrieval fine-grained feature fusion

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1朱迪,张博闻,程雅琪,刘昕悦,吴文隆,王铁鑫,文浩,李博涵.知识赋能的新一代信息系统研究现状、发展与挑战[J].软件学报,2023,34(10):4439-4462. 被引量：4
2杨杨,詹德川,姜远,熊辉.可靠多模态学习综述[J].软件学报,2021,32(4):1067-1081. 被引量：13

二级参考文献8

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：332
2陶飞,张萌,程江峰,戚庆林.数字孪生车间——一种未来车间运行新模式[J].计算机集成制造系统,2017,23(1):1-9. 被引量：486
3陶飞,程颖,程江峰,张萌,徐文君,戚庆林.数字孪生车间信息物理融合理论与技术[J].计算机集成制造系统,2017,23(8):1603-1611. 被引量：305
4官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994. 被引量：171
5陶剑,戴永长,魏冉.基于数字线索和数字孪生的生产生命周期研究[J].航空制造技术,2017,60(21):26-31. 被引量：33
6王鑫,邹磊,王朝坤,彭鹏,冯志勇.知识图谱数据管理研究综述[J].软件学报,2019,30(7):2139-2174. 被引量：148
7杨林瑶,陈思远,王晓,张俊,王成红.数字孪生与平行系统:发展现状、对比及展望[J].自动化学报,2019,45(11):2001-2031. 被引量：180
8王鑫,陈蔚雪,杨雅君,张小旺,冯志勇.知识图谱划分算法研究综述[J].计算机学报,2021,44(1):235-260. 被引量：20

共引文献15

1陈立鹏,陈小龙,宋诗凡,陈桢衍.基于多模态语义识别的语音识别报警系统[J].科学技术创新,2022(2):89-92. 被引量：1
2贾艳平.计算机软件技术的不可靠性分析[J].集成电路应用,2022,39(1):202-203. 被引量：1
3卢冰洁,李炜卓,那崇宁,牛作尧,陈奎.机器学习模型在车险欺诈检测的研究进展[J].计算机工程与应用,2022,58(5):34-49. 被引量：11
4刘佳琳,李喆.多模态学习的研究热点、动态前沿与趋势分析--基于CiteSpace软件的可视化分析[J].卫生职业教育,2022,40(19):125-129. 被引量：1
5廉永海,王斌,胡瑞斌,傅俊鹤,吕腾达.成果地质资料知识化方法初探[J].中国矿业,2023,32(6):175-182. 被引量：1
6周宇星,樊丞成,王震,徐信毅,林萍,李晓欧.基于特征层融合的EEG-NIRS识别方法研究[J].软件工程,2024,27(1):1-5.
7孙强,陈远.多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别[J].电子与信息学报,2024,46(2):574-587. 被引量：2
8孙强,王姝玉.结合时间注意力机制和单模态标签自动生成策略的自监督多模态情感识别[J].电子与信息学报,2024,46(2):588-601.
9芦伟.基于数字孪生的自组网多模态数据快速融合[J].电子设计工程,2024,32(6):136-139.
10黄文恺,梁智洪,王明华,张文丰,王奕首.数字孪生在航空航天结构设计、制造和运维中的应用与展望[J].图学学报,2024,45(2):241-249. 被引量：1

1郭华东,梁栋.地球大数据缘起和进展[J].科学通报,2024,69(1):58-67. 被引量：2
2夏维浩,赵振江,曹佳璐,吴俣飞,张丽丽.基于区块链的医疗信息共享平台[J].山西电子技术,2024(1):91-94.
3王晓虎,林超,伍玮.基于SM2的标识认证密钥交换协议[J].信息安全学报,2024,9(2):84-95.

软件学报

2024年第3期

浏览历史

内容加载中请稍等...

基于细粒度特征融合的部分多模态哈希

参考文献2

二级参考文献8

共引文献15

相关作者

相关机构

相关主题

浏览历史