-
题名融合BERT与AttnGAN的文本生成图像方法
- 1
-
-
作者
何儒汉
贺凯凯
陈常念
张自力
陈佳
-
机构
武汉纺织大学纺织服装智能化湖北省工程研究中心
武汉纺织大学计算机与人工智能学院
-
出处
《中国科技论文》
CAS
北大核心
2022年第3期260-268,共9页
-
基金
湖北省教育厅科学技术研究计划项目(D20141603)
国家自然科学基金资助项目(61170093)。
-
文摘
针对文本生成图像任务中文本信息与生成图像的语义一致性,以及图像细节模糊、图像要素空间搭配合理性问题,提出了融合BERT文本编码模型和AttnGAN生成对抗网络模型的文本生成图像方法。首先,在文本与图像语义一致性训练中,借助预训练BERT模型对文本进行句、字级别的特征编码,充分利用其在NLP任务中的优秀文本编码与强泛化能力深度匹配文本语义和图像区域的特征一致性;然后,在图像生成网络的第一阶段图像生成模块之前添加空间注意力模块,提高最终生成图像的语义一致性和空间位置的布局合理性。融合优化后的模型所生成的图像相比原AttnGAN模型,IS指标提升了0.17,FID指标降低了1.15,整体视觉效果更加细腻逼真,模型成功地在阿里天池服装数据集上应用,表明其具有良好的跨领域生成能力。
-
关键词
文本生成图像
bert预训练模型
attngan模型
空间注意力
语义一致性
-
Keywords
text-to-image
pre-trained BERT model
attngan model
spatial attention
semantical consistency
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-