融合注意力机制的IETM细粒度跨模态检索算法

Fine grained cross-modal retrieval algorithm for IETM with attention mechanism fused

下载PDF

导出

摘要交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一,针对其检索模态单一的问题,以其数据中图文描述为研究对象,提出一种融合注意力机制的细粒度跨模态检索算法。针对数据中图像简图较多、色彩单一等特点,特征提取模块使用Vision Transformer模型和Transformer编码器分别获得图文的全局和局部特征;使用注意力机制在图文模态间及模态内部挖掘细粒度信息,加入文本对抗训练增强模型泛化能力,采用跨模态联合损失函数对模型进行约束。在Pascal Sentence数据集和自建数据集上进行验证,所提方法的平均精度均值分别达到了0.964和0.959,较基准模型(深度监督跨模态检索)分别提升了0.248和0.214。 Interactive electronic manual is an important technology to improve the informatization and intelligence of various equipment support.Aiming at the problem of single retrieval modal,an improved fine grained cross-modal retrieval algorithm with attention mechanism fused is proposed,which takes the graphic descriptions of the data as the research object.In view of the characteristics of many image sketches and single color in the data,the feature extraction module uses the Vision Transformer model and Transformer encoder to obtain the global and local features of the picture and text,respectively.Moreover,the attention mechanism is applied to mine fine grained information between and within graphic and text modes,and text confrontation training is added to enhance the model’s generalization ability.In addition,the cross-modal joint loss function is used to constrain the model.Verifying on the Pascal Sentence dataset and self-built dataset,the average accuracy of the proposed method reaches 0.964 and 0.959 respectively,which is 0.248 and 0.214 higher than the benchmark model deep supervised cross modal retrieval(DSCMR),respectively.

作者翟一琛顾佼佼宗富强姜文志 ZHAI Yichen;GU Jiaojiao;ZONG Fuqiang;JIANG Wenzhi(Coastal Defense College,Naval Aviation University,Yantai 264001,China)

机构地区海军航空大学岸防兵学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2023年第12期3915-3923,共9页 Systems Engineering and Electronics

关键词交互式电子手册图文检索跨模态注意力机制 interactive electronic technical manual image-text retrieval cross-modal attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘颖,郭莹莹,房杰,范九伦,郝羽,刘继明.深度学习跨模态图文检索研究综述[J].计算机科学与探索,2022,16(3):489-511. 被引量：22
2朱路,田晓梦,曹赛男,刘媛媛.基于高阶语义相关的子空间跨模态检索方法研究[J].数据分析与知识发现,2020,4(5):84-91. 被引量：4

二级参考文献10

1张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163. 被引量：55
2丁恒,陆伟.基于相关性的跨模态信息检索研究[J].现代图书情报技术,2016(1):17-23. 被引量：7
3欧卫华,刘彬,周永辉,宣瑞晟.跨模态检索研究综述[J].贵州师范大学学报（自然科学版）,2018,36(2):114-120. 被引量：15
4于玉海,林鸿飞,孟佳娜,郭海,赵哲焕.跨模态多标签生物医学图像分类建模识别[J].中国图象图形学报,2018,23(6):917-927. 被引量：12
5李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：20
6李广丽,刘斌,朱涛,殷依,张红斌.基于优选典型相关分量的跨媒体检索模型[J].山东大学学报（工学版）,2018,48(5):38-46. 被引量：1
7代刚,张鸿.基于语义相关性与拓扑关系的跨媒体检索算法[J].计算机应用,2018,38(9):2529-2534. 被引量：8
8曾倩倩,张婷婷.基于大数据的图像检索技术在侦查中的应用[J].电子技术与软件工程,2018(21):175-176. 被引量：4
9卓昀侃,綦金玮,彭宇新.跨媒体深层细粒度关联学习方法[J].软件学报,2019,30(4):884-895. 被引量：13
10凌海彬,缪裕青,张万桢,周明,武继刚.多特征融合的图文微博情感分析[J].计算机应用研究,2020,37(7):1935-1939. 被引量：8

共引文献24

1陈宁,段友祥,孙歧峰.跨模态检索研究文献综述[J].计算机科学与探索,2021,15(8):1390-1404. 被引量：8
2杜锦丰,王海荣,梁焕,王栋.基于表示学习的跨模态检索方法研究进展[J].广西师范大学学报（自然科学版）,2022,40(3):1-12. 被引量：4
3刘颖,王哲,房杰,朱婷鸽,李琳娜,刘继明.基于图文融合的多模态舆情分析[J].计算机科学与探索,2022,16(6):1260-1278. 被引量：8
4洪惠群,沈贵萍,黄风华.表情识别技术综述[J].计算机科学与探索,2022,16(8):1764-1778. 被引量：6
5朱维乔.深度学习驱动的跨模态视觉数据搜索研究综述[J].高校图书馆工作,2022,42(5):41-45.
6曾素佳,庞善民,郝问裕.基于深度监督学习的零样本跨模态检索方法[J].西安交通大学学报,2022,56(11):156-166. 被引量：1
7杨慧,施水才.基于内容的图像检索技术研究综述[J].软件导刊,2023,22(4):229-244. 被引量：2
8李颖婷.生成式人工智能给图书馆带来的机遇、挑战及应对策略[J].图书与情报,2023(2):42-48. 被引量：34
9张知奇,袁鑫攀,曾志高.单向句法依存关系指导下的跨模态检索[J].现代信息科技,2023,7(10):74-79.
10李天煜,刘立波.基于模态内相似性与语义保留的深度跨模态哈希[J].数据分析与知识发现,2023,7(5):105-115.

1杨迪,吴春明.一种融合注意力机制的跨模态图文检索算法[J].计算机技术与发展,2023,33(11):143-148. 被引量：1
2李波,张海波,张鑫,罗大雷,张志良,徐昕.面向液体运载火箭的测发训练系统设计[J].计算机测量与控制,2023,31(7):85-90.
3农耀斌,黄鸿娜,杜沅沁,宋文选,朱荣火,黄晶晶.中西医调控肠道微生态干预肝性脑病的研究进展[J].辽宁中医杂志,2023,50(9):245-248.
4黄天元.车辆制动时发动机故障灯点亮的检修[J].汽车实用技术,2023,48(22):159-162.
5罗玉梅,王莹,王丽娟.采用双RBF神经网络控制的机械手末端位姿研究[J].中国工程机械学报,2023,21(5):401-405. 被引量：1
6陈超,万庆,冯亮,王二振.隐翅助高飞猎鹰遨九州——记航空工业洪都集团客户服务团队[J].航空标准化与质量,2023(S01):3-3.
7孙浩.采用混合算法优化神经网络滑模控制的机器人跟踪误差[J].湖南科技大学学报（自然科学版）,2023,38(3):34-41. 被引量：3

系统工程与电子技术

2023年第12期

浏览历史

内容加载中请稍等...

融合注意力机制的IETM细粒度跨模态检索算法

参考文献2

二级参考文献10

共引文献24

相关作者

相关机构

相关主题

浏览历史