摘要
本文聚焦于多模态图像语义关联问题,采用CHINESE-CLIP模型结合迁移学习技术,探索了基于文本的图像检索和基于图像的文本检索两种方法。研究采用了CHINESE-CLIP多模态预训练神经网络,通过融合文本和图像特征提取技术,实现了文本与图像在统一空间内的高效匹配。在图像检索文本的任务中,对比了CN-CLIPViT-B/16和CN-CLIPViT-L/14两种模型的性能,结果表明CN-CLIPViT-L/14模型在语义关联上表现更为优异。在基于图像的文本检索方面,模型利用Vision Transformer(ViT)图像编码器和对比损失进行训练。ViT通过将图像分割成固定大小的图块,采用自注意力机制处理序列元素,并通过前馈网络进一步提取特征,最终实现图文互检的能力。最终,图文检索模型在图像检索文本的准确率:R1为76.56%,R5为94.17%,R10为97.48%;在文本检索图像的准确率:R1为70.73%,R5为94.80%,R10为97.25%。
出处
《电子制作》
2024年第22期61-66,共6页
Practical Electronics
基金
2024年广东省普通高校青年创新人才项目(编号:2024KQNCX295)
基于昇腾NPU的无人机电力线路巡检图像缺陷识别算法研究及实现(编号:2021ZDZX3029)
广东省继续教育质量提升工程(编号:JXJYGC2022GX111)
2022年计算机视觉应用创新团队(编号:2022KCXTD047)
2023年广东省普通高校青年创新人才项目(编号:2023KQNCX185)
广东省普通高校特色创新项目非马氏细胞内部随机过程的建模与分析(编号:2020KTSCX238)
广东省智慧职教工程技术研究中心(编号:2021A118)。