期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于CLIP和双空间自适应归一化的图像翻译 被引量:1
1
作者 李田芳 普园媛 +2 位作者 赵征鹏 徐丹 钱文华 《计算机工程》 CAS CSCD 北大核心 2024年第5期229-240,共12页
现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习... 现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习语言-图像预训练(CLIP)的无监督图像翻译模型。首先,引入CLIP相似性损失对图像的风格特征施加约束,以在不使用数据集域标签的情况下增强模型传递图像风格信息的能力和准确性;其次,对自适应实例归一化(AdaIN)进行改进,设计一个新的双空间自适应归一化(DSAdaIN)模块,在特征的风格化阶段添加网络的学习和自适应交互过程,以加强对内容源域信息的保留;最后,设计一个鉴别器对比损失来平衡对抗网络损失的训练和优化过程。在多个公开数据集上的实验结果表明,与Star GANv2、Style DIS等模型相比,该模型可在准确传递图像风格信息的同时保留一定的源域信息,且在定量评估指标FID分数和KID分数上分别提升了近3.35和0.57×102,实现了较好的图像翻译性能。 展开更多
关键词 图像翻译 生成对抗网络 对比学习语言-图像训练模型 自适应实例归一化 对比学习
下载PDF
基于大规模预训练文本图像模型的虚拟试穿方法 被引量:1
2
作者 祖雅妮 张毅 《丝绸》 CAS CSCD 北大核心 2023年第8期99-106,共8页
现有的虚拟试穿技术需要用户提供人体图像和服装图像,且存在生成图像质量低、泛化性差等缺点。为了解决现有问题,文章提出了一种基于文本图像预训练模型的虚拟试穿方法。用户只需输入描述服装的文本,即可获取试穿效果。此外,通过编辑GAN... 现有的虚拟试穿技术需要用户提供人体图像和服装图像,且存在生成图像质量低、泛化性差等缺点。为了解决现有问题,文章提出了一种基于文本图像预训练模型的虚拟试穿方法。用户只需输入描述服装的文本,即可获取试穿效果。此外,通过编辑GAN-Inversion优化生成的隐向量,能够保障生成与输入图像质量上的一致性。定性实验结果表明,文章提出的方法能够有效地保留输入人体图像的特征,并生成与文本描述一致的服装。在定量实验中,该方法在语义信息、IoU和FID等评价指标上均优于现有方法。 展开更多
关键词 虚拟试穿 GAN-反转 训练模型 clip GAN-编辑 文本图像模型
下载PDF
基于预训练模型的注意力叠加方法及其在图像字幕生成中的应用
3
作者 倪玉航 张杰 《江苏理工学院学报》 2023年第6期12-22,52,共12页
图像字幕生成是视觉语言理解中的一项基本任务,模型会对给定的输入图像生成一个文本描述性的字幕。为了提高字幕生成的质量,文章提出了一种基于预训练模型注意力叠加方法的图像字幕生成框架。与传统的CNN和RNN组合相比,该框架利用了更... 图像字幕生成是视觉语言理解中的一项基本任务,模型会对给定的输入图像生成一个文本描述性的字幕。为了提高字幕生成的质量,文章提出了一种基于预训练模型注意力叠加方法的图像字幕生成框架。与传统的CNN和RNN组合相比,该框架利用了更高层次的特征信息,提高了模型的性能和效果。编码器部分由预训练的CLIP模型及精炼模块构成,其中CLIP模型用于输入图像的特征提取,精炼模块用于优化提取出来的图像特征;解码器部分由预训练的GPT-2模型、LSTM模型及注意力叠加构成,其主要作用是将特征信息生成为图像字幕。实验结果表明:基于预训练模型的注意力叠加方法的图像字幕生成模型框架表现出了更好的性能,在Flickr30k和MSCOCO图像数据集上的CIDEr-D指标值分别为61.4%和119.3%,相对于基准模型分别提高了22.6%和10.8%。 展开更多
关键词 图像字幕 训练模型 注意力叠加 clip GPT-2 LSTM模型
下载PDF
大规模预训练模型在太空态势感知领域的应用思考
4
作者 尹港港 张峰 郭继光 《空天预警研究学报》 CSCD 2023年第5期355-363,共9页
随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境... 随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境带来的挑战,首先分析了SSA领域存在的瓶颈问题;然后针对SSA领域中的应用需求,提出了一系列潜在优势和应用方向;最后探讨了大规模预训练模型在SSA领域应用过程中所面临的关键挑战及可能的解决方案. 展开更多
关键词 太空态势感知 大规模训练模型 自然语言处理 图像处理
下载PDF
基于图像和LM的标准术语检测技术比较研究
5
作者 张庆国 《计算机应用文摘》 2024年第9期120-122,共3页
标准术语是指特定领域内具有特定含义和用途的字词组合。在使用标准术语时,应确保没有缺字、添字、替换字或字序错乱等情况,特别是在涉及意识形态领域时更应如此。文章回顾了图像处理、预训练语言模型等深度学习技术的发展历程,并探讨... 标准术语是指特定领域内具有特定含义和用途的字词组合。在使用标准术语时,应确保没有缺字、添字、替换字或字序错乱等情况,特别是在涉及意识形态领域时更应如此。文章回顾了图像处理、预训练语言模型等深度学习技术的发展历程,并探讨了深度学习技术在标准术语检测中的应用;提出了基于深度学习图像特征和基于预训练语言模型的2种方法来实现标准术语的检测,并对自行构建的测试数据进行了验证。实验结果显示,基于预训练语言模型的标准术语检测方法表现更优,平均准确率达到了99.4%。文章采用的方法适用于各个领域,尤其在意识形态领域具有广泛应用价值。 展开更多
关键词 深度学习 图像处理 训练语言模型 标准术语检测
下载PDF
基于扩散生成对抗网络的文本生成图像模型研究
6
作者 赵宏 李文改 《电子与信息学报》 EI CSCD 北大核心 2023年第12期4371-4381,共11页
文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasser... 文本生成图像是一项结合计算机视觉(CV)和自然语言处理(NLP)领域的综合性任务。以生成对抗网络(GANs)为基础的方法在文本生成图像方面取得了显著进展,但GANs方法的模型存在训练不稳定的问题。为解决这一问题,该文提出一种基于扩散Wasserstein生成对抗网络(WGAN)的文本生成图像模型(D-WGAN)。在DWGAN中,利用向判别器中输入扩散过程中随机采样的实例噪声,在实现模型稳定训练的同时,生成高质量和多样性的图像。考虑到扩散过程的采样成本较高,引入一种随机微分的方法,以简化采样过程。为了进一步对齐文本与图像的信息,提出使用基于对比学习的语言-图像预训练模型(CLIP)获得文本与图像信息之间的跨模态映射关系,从而提升文本和图像的一致性。在MSCOCO,CUB-200数据集上的实验结果表明,D-WGAN在实现稳定训练的同时,与当前最好的方法相比,FID分数分别降低了16.43%和1.97%,IS分数分别提升了3.38%和30.95%,说明D-WGAN生成的图像质量更高,更具有实用价值。 展开更多
关键词 文本生成图像 生成对抗网络 扩散过程 对比学习的语言-图像训练模型 语义匹配
下载PDF
基于文本感知和非重复单词生成的图像语义理解
7
作者 杨晨露 万旺根 +2 位作者 王旭智 孙学涛 张振 《工业控制计算机》 2023年第11期105-106,109,共3页
在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(... 在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(MLM)、图像-文本匹配(ITM)以及相对空间位置预测(RPP)。在解码过程中,为解决生成语句冗余问题,提出重复掩码模块,以避免预测语句中出现重复的单词。最后在Textcaps数据集上的实验结果表明,所提的方法可以有效地提高生成描述语句的准确率。 展开更多
关键词 图像语义理解 自然语言处理 视觉-语言训练任务 TRANSFORMER
下载PDF
基于视觉语言提示学习的少样本图像分类方法
8
作者 李宝安 王欣宇 +1 位作者 滕尚志 吕学强 《北京邮电大学学报》 EI CAS CSCD 北大核心 2024年第2期11-17,共7页
为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能... 为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次,在图像编码部分,引入可学习的视觉提示,使图像预训练参数能更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,以提升网络在少样本图像分类数据集上的性能。在10个公开数据集上进行了大量实验,结果表明,相较于现有方法,所提方法在单样本分类的平均准确度上提高了2.9%。 展开更多
关键词 提示学习 视觉语言模型 少样本学习 图像分类 训练模型
原文传递
Region-Aware Fashion Contrastive Learning for Unified Attribute Recognition and Composed Retrieval
9
作者 WANG Kangping ZHAO Mingbo 《Journal of Donghua University(English Edition)》 CAS 2024年第4期405-415,共11页
Clothing attribute recognition has become an essential technology,which enables users to automatically identify the characteristics of clothes and search for clothing images with similar attributes.However,existing me... Clothing attribute recognition has become an essential technology,which enables users to automatically identify the characteristics of clothes and search for clothing images with similar attributes.However,existing methods cannot recognize newly added attributes and may fail to capture region-level visual features.To address the aforementioned issues,a region-aware fashion contrastive language-image pre-training(RaF-CLIP)model was proposed.This model aligned cropped and segmented images with category and multiple fine-grained attribute texts,achieving the matching of fashion region and corresponding texts through contrastive learning.Clothing retrieval found suitable clothing based on the user-specified clothing categories and attributes,and to further improve the accuracy of retrieval,an attribute-guided composed network(AGCN)as an additional component on RaF-CLIP was introduced,specifically designed for composed image retrieval.This task aimed to modify the reference image based on textual expressions to retrieve the expected target.By adopting a transformer-based bidirectional attention and gating mechanism,it realized the fusion and selection of image features and attribute text features.Experimental results show that the proposed model achieves a mean precision of 0.6633 for attribute recognition tasks and a recall@10(recall@k is defined as the percentage of correct samples appearing in the top k retrieval results)of 39.18 for composed image retrieval task,satisfying user needs for freely searching for clothing through images and texts. 展开更多
关键词 attribute recognition image retrieval contrastive language-image pre-training(clip) image text matching transformer
下载PDF
基于CLIP模型的跨模态哈希检索研究 被引量:3
10
作者 张程皓 蒋政 《信息与电脑》 2022年第15期85-87,共3页
随着移动互联网的快速发展,不同种类的媒体数据在互联网上迅速增长,如何快速高效地检索不同模态数据成为了人们关心的问题。目前,预训练模型在学习文本和视觉特征上的表现让人印象深刻。使用对比性语言-图像预训练(Contrastive Language... 随着移动互联网的快速发展,不同种类的媒体数据在互联网上迅速增长,如何快速高效地检索不同模态数据成为了人们关心的问题。目前,预训练模型在学习文本和视觉特征上的表现让人印象深刻。使用对比性语言-图像预训练(Contrastive Language-Image Pre-Training,CLIP)模型作为主干网络执行多模态哈希检索任务,预先对齐不同模态的语义信息,再选取合适的目标函数,并使用有监督训练的方法,在此基础上提出简单、高效的CLIP2CMH模型。在两个基准数据集上的实验表明,该算法可以在跨模态哈希检索领域表现出良好性能。 展开更多
关键词 跨模态检索 哈希 训练模型 对比性语言-图像训练(clip)
下载PDF
一种顾及空间语义的跨模态遥感影像检索技术
11
作者 金澄 弋步荣 +4 位作者 曾志昊 刘扬 陈旭 赵裴 康栋 《中国电子科学研究院学报》 北大核心 2023年第4期328-335,385,共9页
随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素... 随着遥感影像获取的场景和目标内容日益丰富,传统的基于关键字和属性字段的检索手段无法反映对于影像内容的语义检索,导致用户无法从大规模影像中获取满足需求语义的数据。OpenAI发布的语言-图像预训练对比模型(CLIP),为跨模态开放要素检索提供了重要的模型支撑,但其在顾及空间语义关系等复杂跨模态检索任务上能力不足。本文提出了一种顾及空间语义关系的跨模态遥感影像检索技术,基于CLIP构建跨模态遥感影像检索模型GEOCLIP,通过对比学习方法训练,习得富含空间语义与开放信息的双模态语义对齐公共表示空间,特别针对遥感影像跨模态空间语义检索问题,引入遥感影像和文本表达中的空间关系提取,实现融合空间语义的跨模态检索。本文提出的顾及空间语义的跨模态遥感影像检索技术,在RSICD Dataset数据集上进行了验证,其R@1,R@5,R@10和mR指标均达到目前最优,其中平均召回率mR相较于CLIP提升了3.45%,相较于已公开发表的最优方法GaLR提升了77.22%。GEOCLIP在各种空间查询上的平均召回率mR全部优于CLIP,其中针对at、near、around的空间查询提升效果最大,分别为3.72%、8.85%、7.11%。 展开更多
关键词 对比语言-图像训练 跨模态检索 遥感影像 空间语义
下载PDF
视觉语言多模态预训练综述 被引量:10
12
作者 张浩宇 王天保 +3 位作者 李孟择 赵洲 浦世亮 吴飞 《中国图象图形学报》 CSCD 北大核心 2022年第9期2652-2682,共31页
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息... 在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。 展开更多
关键词 多模态机器学习 视觉语言多模态 训练 自监督学习 图像文本训练 视频文本训练
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部