期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于大规模预训练文本图像模型的虚拟试穿方法
1
作者 祖雅妮 张毅 《丝绸》 CAS CSCD 北大核心 2023年第8期99-106,共8页
现有的虚拟试穿技术需要用户提供人体图像和服装图像,且存在生成图像质量低、泛化性差等缺点。为了解决现有问题,文章提出了一种基于文本图像预训练模型的虚拟试穿方法。用户只需输入描述服装的文本,即可获取试穿效果。此外,通过编辑GAN... 现有的虚拟试穿技术需要用户提供人体图像和服装图像,且存在生成图像质量低、泛化性差等缺点。为了解决现有问题,文章提出了一种基于文本图像预训练模型的虚拟试穿方法。用户只需输入描述服装的文本,即可获取试穿效果。此外,通过编辑GAN-Inversion优化生成的隐向量,能够保障生成与输入图像质量上的一致性。定性实验结果表明,文章提出的方法能够有效地保留输入人体图像的特征,并生成与文本描述一致的服装。在定量实验中,该方法在语义信息、IoU和FID等评价指标上均优于现有方法。 展开更多
关键词 虚拟试穿 GAN-反转 预训练模型 CLIP GAN-编辑 文本图像模型
下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
2
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本预训练模型 语义描述性文本
下载PDF
基于大模型微调范式的绘画风格模拟方法
3
作者 马诗洁 徐华艺 +3 位作者 李聪聪 耿卫东 沈华清 李萌坚 《计算机应用》 CSCD 北大核心 2024年第S01期268-272,共5页
现有的微调大模型生成指定风格化图像的方法能力有限,存在布局风格、细节风格同目标风格不一致的问题,为了提高大模型风格模拟一致性能力,提出一种微调大模型部分注意力参数和低秩自适应(LoRA)相结合的方法并用于红色山水风格的绘画生... 现有的微调大模型生成指定风格化图像的方法能力有限,存在布局风格、细节风格同目标风格不一致的问题,为了提高大模型风格模拟一致性能力,提出一种微调大模型部分注意力参数和低秩自适应(LoRA)相结合的方法并用于红色山水风格的绘画生成。首先,以少量绘画样本微调文生图大模型的部分注意力参数;其次,冻结文生图(文本-图像)大模型,结合LoRA微调方法在模型中注入可训练层进行训练;最后,将第2步中的可训练层插入第1步微调过的大模型中进行推理。实验结果表明,与目前流行的风格定制方法相比,所提方法在保证文本可控性的同时,不仅保证了绘画的整体布局与训练集图像风格一致,同时在绘画细节上也与目标风格具有高一致性。在红色山水画风格模拟方面的实验结果表明,生成的红色山水画更接近训练集的风格,并且生成的绘画风格更符合艺术从业者的风格一致性评价。目前,基于所提方法的红色山水画互动生成系统已经在中国共产党杭州历史馆对外开放展示。 展开更多
关键词 文本-图像模型 微调 绘画风格 少量样本 图像生成 DreamBooth 低秩自适应
下载PDF
多模态预训练模型综述 被引量:6
4
作者 王惠茹 李秀红 +3 位作者 李哲 马春明 任泽裕 杨丹 《计算机应用》 CSCD 北大核心 2023年第4期991-1004,共14页
预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像‒文本PTM和视频‒文本PTM;根据数据融合方... 预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像‒文本PTM和视频‒文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类。首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Mega-transformer)模型、跨模态提示调优(CPT)模型、VideoBERT(Video Bidirectional Encoder Representations from Transformers)模型和AliceMind(Alibaba’s collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。 展开更多
关键词 多模态 预训练模型 图像-文本预训练模型 视频-文本预训练模型 神经网络 单流模型 双流模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部