基于多模态特征频域融合的零样本指称图像分割

Zero-shot referring image segmentation based onmultimodal feature frequency domain fusion

下载PDF

导出

摘要为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务;接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码;然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换;最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行了测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。 In order to solve the problem that semantic segmentation cannot handle undefined categories when applied to downstream tasks in the real world,it proposed referring image segmentation to find the corresponding target in the image according to the description of natural language text.Most of the existing methods use a cross-modal decoder to fuse the features extracted independently from the visual encoder and language encoder,but these methods cannot effectively utilize the edge features of the image and are complicated to train.CLIP is a powerful pre-trained visual language cross-modal model that can effectively extract image and text features.Therefore,this paper proposed a method of multimodal feature fusion in the frequency domain after CLIP encoding.Firstly,it used an unsupervised model to segment images,and extracted nouns in natural language text for follow-up task.Then it used the image encoder and text encoder of CLIP to encode the image and text respectively.Then it used the wavelet transform to decompose the image and text features,and decomposed and fused in the frequency domain which could make full use of the edge features of the image and the position information in the image,fused the image feature and text feature respectively in the frequency domain,then inversed the fused features.Finally,it matched the text features and image features pixel by pixel,and obtained the segmentation results,and tested on commonly used data sets.The experimental results prove that the network has achieved good results without training zero samples,and has good robustness and generalization ability.

作者林浩然刘春黔薛榕融谢勋伟雷印杰 Lin Haoran;Liu Chunqian;Xue Rongrong;Xie Xunwei;Lei Yinjie(School of Electronic Information,Sichuan University,Chengdu 610065,China;Key Laboratory of Optical Engineering,Institute of Optics&Electronics,Chinese Academy of Sciences,Chengdu 610209,China;CETC Key Laboratory of Avionic Information System Technology,The 10th Research Institute of China Electronics Technology Group Corporation,Chengdu 610036,China)

机构地区四川大学电子信息学院中国科学院光电技术研究所中国科学院光束控制重点实验室中国电子科技集团公司第十研究所航空电子信息系统技术重点实验室

出处《计算机应用研究》 CSCD 北大核心 2024年第5期1562-1568,共7页 Application Research of Computers

基金国家自然科学基金资助项目(62276176)。

关键词指称图像分割 CLIP 小波变换零样本 referring image segmentation CLIP wavelet transform zero-shot

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘颖,孙定华,公衍超.学习小波超分辨率系数的人脸超分算法[J].计算机应用研究,2020,37(12):3830-3835. 被引量：2
2王婷,宣士斌,周建亭.融合小波变换和编解码注意力的异常检测[J].计算机应用研究,2023,40(7):2229-2234. 被引量：1
3冯兴杰,孙少杰.一种融合多级特征信息的图像语义分割方法[J].计算机应用研究,2020,37(11):3512-3515. 被引量：7
4水文泽,孙盛,余旭,邓少平.轻量化卷积神经网络在SAR图像语义分割中的应用[J].计算机应用研究,2021,38(5):1572-1575. 被引量：4

二级参考文献15

1王丹,周锦程.基于SVR和PCA的超分辨率图像恢复算法应用研究[J].计算机应用研究,2012,29(5):1980-1982. 被引量：2
2穆柯楠,赵祥模,惠飞.基于非采样高斯差分金字塔的多尺度融合边缘检测[J].四川大学学报（工程科学版）,2015,47(5):130-138. 被引量：10
3李朝奎,方文,董小姣.面向对象和规则的高分辨率影像分类研究[J].测绘通报,2015(9):9-13. 被引量：21
4俞颖,张益强,李绍伟.遥感影像地物分类识别的研究与实现[J].信息通信,2017,30(6):56-57. 被引量：1
5张军阳,王慧丽,郭阳,扈啸.深度学习相关研究综述[J].计算机应用研究,2018,35(7):1921-1928. 被引量：128
6麻旋,戴曙光.基于残差网络的图像超分辨率算法改进研究[J].软件导刊,2018,17(4):91-93. 被引量：5
7左斌,刘爱芳,王帆,殷君君,杨健.基于极化干涉SAR图像的地物监督分类方法[J].电波科学学报,2018,33(6):688-694. 被引量：2
8刘村,李元祥,周拥军,骆建华.基于卷积神经网络的视频图像超分辨率重建方法[J].计算机应用研究,2019,36(4):1256-1260. 被引量：35
9吴止锾,高永明,李磊,薛俊诗.类别非均衡遥感图像语义分割的全卷积网络方法[J].光学学报,2019,39(4):393-404. 被引量：21
10廖旋,缪君,储珺,张桂梅.融合分割先验的多图像目标语义分割[J].中国图象图形学报,2019,24(6):890-901. 被引量：10

共引文献9

1王伟光,钱祥利.基于深度学习的人脸妆容迁移算法[J].计算机应用研究,2021,38(5):1559-1562. 被引量：1
2冯兴杰,张天泽.基于分组卷积进行特征融合的全景分割算法[J].计算机应用,2021,41(7):2054-2061. 被引量：8
3梁志军,刘栋.基于姿态信息的人与物体交互检测模块网络[J].计算机应用研究,2021,38(8):2299-2302.
4朱戎,叶宽,杨博,谢欢,赵蕾.基于改进DeeplabV3+的地物分类方法研究[J].计算机科学,2021,48(S02):382-385. 被引量：5
5王光宇,张海涛.轻量型图像分类神经网络改进研究[J].计算机应用研究,2021,38(12):3808-3813. 被引量：2
6王媛,刘丛,唐坚刚.自适应多维特征减少的模糊C-均值遥感图像分割算法[J].计算机应用研究,2022,39(3):906-910. 被引量：2
7许光宇,汤伟建.一种有效融合多尺度特征的图像语义分割方法[J].光电子．激光,2022,33(3):264-271. 被引量：2
8孙盛,蒙芝敏,胡忠文,余旭.多尺度轻量化CNN在SAR图像地物分类中的应用[J].自然资源遥感,2023,35(1):27-34.
9邓文革,王亚军,隋立林,孙国栋,张正博.基于类间距离蒸馏的语义分割[J].计算机系统应用,2023,32(10):235-241.

1邵叶秦,王梓腾,张若为,胡彬,曹秋阳,周瑞,冯林威.基于注意力和对比学习的轻量级交通标志检测方法[J].南通职业大学学报,2024,38(1):63-69.
2卢得民,钟诚,杨锋.用于肺水肿量化的掩码图像-语言蒸馏模型[J].基因组学与应用生物学,2024,43(2):274-283.
3LIU Haiyi,ZHANG Yabin,WANG Lei.Pre-Training Physics-Informed Neural Network with Mixed Sampling and Its Application in High-Dimensional Systems[J].Journal of Systems Science & Complexity,2024,37(2):494-510. 被引量：1
4任政.博采众长——谢时臣《石梁秋雾图轴》研究[J].艺术市场,2024(4):58-59.
5冯和平,王宽方,张蓉蓉,谢雅佶.基于数字图像防剽窃系统的信息化教学设计[J].集成电路应用,2024,41(3):90-92.
6杨锋,杜秀君.基于深度学习的监控视频图像增强处理方法[J].信息与电脑,2024,36(5):122-124.
7陈稳中,陈红梅,周丽华,方圆.融入时间信息的预训练序列推荐方法[J].计算机科学,2024,51(5):45-53.
8Hae Sung Park,Yong Suk Choi.TEAM:Transformer Encoder Attention Module for Video Classification[J].Computer Systems Science & Engineering,2024,48(2):451-477.
9张敏,孙雷鸣,史文英,王新领,张兴岩.OBN资料多分量联合横波噪音衰减技术及在莺歌海盆地某区的应用[J].物探化探计算技术,2024,46(2):164-173.

计算机应用研究

2024年第5期

浏览历史

内容加载中请稍等...

基于多模态特征频域融合的零样本指称图像分割

参考文献4

二级参考文献15

共引文献9

相关作者

相关机构

相关主题

浏览历史