基于Transformer的图文跨模态检索算法被引量：5

Text-Image Cross-modal Retrieval Based on Transformer

下载PDF

导出

摘要随着互联网多媒体数据的不断增长,文本图像检索已成为研究热点。在图文检索中,通常使用相互注意力机制,通过将图像和文本特征进行交互,来实现较好的图文匹配结果。但是,这种方法不能获取单独的图像特征和文本特征,在大规模检索后期需要对图像文本特征进行交互,消耗了大量的时间,无法做到快速检索匹配。然而基于Transformer的跨模态图像文本特征学习取得了良好的效果,受到了越来越多的关注。文中设计了一种新颖的基于Transformer的文本图像检索网络结构(HAS-Net),该结构主要有以下几点改进:1)设计了一种分层Transformer编码结构,以更好地利用底层的语法信息和高层的语义信息;2)改进了传统的全局特征聚合方式,利用自注意力机制设计了一种新的特征聚合方式;3)通过共享Transformer编码层,使图片特征和文本特征映射到公共的特征编码空间。在MS-COCO数据集和Flickr30k数据集上进行实验,结果表明跨模态检索性能均得到提升,在同类算法中处于领先地位,证明了所设计的网络结构的有效性。 With the growth of Internet multimedia data,text image retrieval has become a research hotspot.In image and text retrieval,the mutual attention mechanism is used to achieve better image-text matching results by interacting image and text features.However,this method cannot obtain image features and text features separately,and requires interaction of image and text features in the later stage of large-scale retrieval,which consumes a lot of time and is not able to achieve fast retrieval and ma-tching.However,the cross-modal image text feature learning based on Transformer has achieved good results and has received more and more attention from researchers.This paper designs a novel Transformer-based text image retrieval network structure(HAS-Net),which mainly has the following improvements:a hierarchical Transformer coding structure is designed to better utilize the underlying grammatical information and high-level semantic information;the traditional global feature aggregation method is improved,and the self-attention mechanism is used to design a new feature aggregation method;by sharing the Transformer coding layer,image features and text features are mapped to a common feature coding space.Finally,experiments are conducted on the MS-COCO and Flickr30k datasets,the cross-modal retrieval performance has been improved,and it is in a leading position among similar algorithms.It is proved that the designed network structure is effective.

作者杨晓宇李超陈舜尧李浩亮殷光强 YANG Xiaoyu;LI Chao;CHEN Shunyao;LI Haoliang;YIN Guangqiang(Center for Public Security Technology,University of Electronic Science and Technology of China,Chengdu 611731,China)

机构地区电子科技大学公共安全技术研究中心

出处《计算机科学》 CSCD 北大核心 2023年第4期141-148,共8页 Computer Science

基金深圳市科技计划项目(JSGG20220301090405009)。

关键词 TRANSFORMER 跨模态检索特征分层提取特征聚合特征共享 Transformer Cross-modal retrieval Hierarchical feature extraction Feature aggregation Feature share

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献38

1周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：3
2王向阳,于永健,杨红颖,周璐.基于多种高级语义特征的图像检索技术[J].辽宁师范大学学报（自然科学版）,2009,32(4):445-452. 被引量：1
3Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO.Cross-media analysis and reasoning: advances and directions[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57. 被引量：29
4欧卫华,刘彬,周永辉,宣瑞晟.跨模态检索研究综述[J].贵州师范大学学报（自然科学版）,2018,36(2):114-120. 被引量：15
5向忠,何旋,钱淼,胡旭东.基于边缘和颜色特征的织物印花花型检索[J].纺织学报,2018,39(5):137-143. 被引量：14
6樊花,陈华辉.基于哈希方法的跨模态检索研究进展[J].数据通信,2018(3):39-45. 被引量：4
7李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：20
8彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：34
9宣瑞晟,欧卫华,宋浩强,张仁津.图约束的半监督对抗跨模态检索方法研究[J].贵州师范大学学报（自然科学版）,2019,37(4):86-94. 被引量：2
10孙洁,丁笑君,杜磊,李秦曼,邹奉元.基于卷积神经网络的织物图像特征提取与检索研究进展[J].纺织学报,2019,40(12):146-151. 被引量：13

引证文献5

1张嘉诚,欧卫华,陈英杰,张文川,熊嘉豪.胸部X线影像和诊断报告的双塔跨模态检索[J].计算机应用研究,2023,40(8):2543-2548.
2宋彦,黄俊楚.基于跨模态大模型的交易预测分析[J].广东通信技术,2023,43(9):22-27.
3侯嘉润,施水才,王洪俊.跨模态检索研究方法综述[J].软件导刊,2024,23(5):198-204. 被引量：1
4沈佳忱,袁理,廖海斌,王闵,郭旻.基于Transformer网络特征融合的色纺织物图像检索[J].毛纺科技,2024,52(8):98-102.
5张力,陈康,孙光辉.实值无标签图文跨模态检索研究综述[J].哈尔滨工业大学学报,2024,56(9):1-16.

二级引证文献1

1江淅蕾.浅析媒体素材的智能标签与跨模态检索技术和应用[J].现代电视技术,2024(8):79-83.

1许柏祥,刘丽,邱桃荣.面向近重复文本图像检索的三分支孪生网络[J].智能系统学报,2022,17(3):515-522. 被引量：2
2谭力,李永健,王建景,孟威,林群煦.基于层次逆向散布熵和WELM的滚动轴承故障诊断[J].五邑大学学报（自然科学版）,2023,37(1):48-53.
3王振彪,覃亚丽,王荣芳,郑欢.基于残差特征聚合的图像压缩感知注意力神经网络[J].计算机科学,2023,50(4):117-124.
4萧锘,曹磊,叶琪,冯东雷.医院临床科研大数据平台数据资源分层设计研究[J].中国数字医学,2022,17(9):90-94. 被引量：8
5赵晋巍,刘晓鹏,罗威,程瑾,毛彬,宋宇.基于CLIP模型的军事领域图片资源多模态搜索工具研究[J].中华医学图书情报杂志,2022,31(8):14-20. 被引量：1
6田枫,卢圆圆,刘芳,刘宗堡.融合显著性检测的图像检索方法研究[J].重庆理工大学学报（自然科学）,2023,37(3):162-171. 被引量：1
7徐清振,肖彬.公共空间共享参数的跨模态检索研究[J].华南师范大学学报（自然科学版）,2023,55(1):88-93.
8陈印,李翔,张仁永.基于热释电红外传感器的运动目标识别方法[J].激光杂志,2023,44(2):181-185. 被引量：7
9陈泯融,彭俊杰,曾国强.基于多流融合网络的3D骨架人体行为识别[J].华南师范大学学报（自然科学版）,2023,55(1):94-101. 被引量：4
10李振宇,冯朗.中国传统门神木版年画视觉文化研究[J].民艺,2022(6):18-23.

计算机科学

2023年第4期

浏览历史

内容加载中请稍等...

基于Transformer的图文跨模态检索算法被引量：5

同被引文献38

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的图文跨模态检索算法 被引量：5

同被引文献38

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的图文跨模态检索算法被引量：5