摘要
文本生成图像任务的训练依赖大量的图像文本对,而数据集样本量不足和图像主体内容不突出的问题,将极大地影响模型的整体表现。文章基于全局语义特征以及对语义多样性表达的分析,进行自适应扰动的文本数据增强,同时设计融合边界信息的图像裁剪法,并采用随机裁剪、旋转的方式完成图像数据增强,提高了图像的真实性并丰富了细节。同时,本文在判别器中增加了语义内积,并在损失函数中引入了循环一致性损失和视觉语义匹配损失,进一步提高图文的语义一致性。文章模型在CUB-200-2011数据集上的IS、FID和R-precision值分别达到4.96、14.11和75.20%。
出处
《电脑知识与技术》
2024年第29期90-93,共4页
Computer Knowledge and Technology
基金
国家工业和信息化部智能制造重大专项(联装函[2017]468号)。