基于多域VQGAN的文本生成国画方法研究被引量：2

Text-to-Chinese-painting Method Based on Multi-domain VQGAN

下载PDF

导出

摘要随着生成式对抗网络的出现,从文本描述合成图像最近成为一个活跃的研究领域.然而,目前文本描述往往使用英文,生成的对象也大多是人脸和花鸟等,专门针对中文和中国画的研究较少.同时,文本生成图像任务往往需要大量标注好的图像文本对,制作数据集的代价昂贵.随着多模态预训练的出现与推进,使得能够以一种优化的方式来指导生成对抗网络的生成过程,大大减少了对数据集和计算资源的需求.提出一种多域VQGAN模型来同时生成多种域的中国画,并利用多模态预训练模型WenLan来计算生成图像和文本描述之间的距离损失,通过优化输入多域VQGAN的隐空间变量来达到图片与文本语义一致的效果.对模型进行了消融实验,详细比较了不同结构的多域VQGAN的FID及R-precisoin指标,并进行了用户调查研究.结果表示,使用完整的多域VQGAN模型在图像质量和文本图像语义一致性上均超过原VQGAN模型的生成结果. With the development of generative adversarial networks(GANs),synthesizing images from textual descriptions has become an active research area.However,textual descriptions used for image generation are often in English,and the generated objects are mostly faces,flowers,birds,etc.Few studies have been conducted on the generation of Chinese paintings with Chinese descriptions.The text-toimage generation often requires an enormous number of labeled image-text pairs,and the cost of dataset production is high.With the advance in multimodal pre-training,the GAN generation process can be guided in an optimized way,which significantly reduces the demand for datasets and computational resources.In this study,a multi-domain vector quatization generative adversarial network(VQGAN)model is proposed to simultaneously generate Chinese paintings in multiple domains.Furthermore,a multimodal pre-trained model WenLan is used to calculate the distance loss between generated images and textual descriptions.The semantic consistency between images and texts is achieved by optimization of the hidden space variables input into multi-domain VQGAN.Finally,an ablation experiment is conducted to compare different variants of multi-domain VQGAN in terms of the FID and R-precision metrics,and a user investigation is carried out.The results demonstrate that the complete multi-domain VQGAN model outperforms the original VQGAN model in terms of image quality and text-image semantic consistency.

作者孙泽龙杨国兴温静远费楠益卢志武文继荣 SUN Ze-Long;YANG Guo-Xing;WEN Jing-Yuan;FEI Nan-Yi;LU Zhi-Wu;WEN Ji-Rong(Gaoling School of Artificial Intelligence,Renmin University of China,Beijing 100872,China;School of Information,Renmin University of China,Beijing 100872,China)

机构地区中国人民大学高瓴人工智能学院中国人民大学信息学院

出处《软件学报》 EI CSCD 北大核心 2023年第5期2116-2133,共18页 Journal of Software

基金国家自然科学基金(61976220,61832017) 北京高等学校卓越青年科学家计划(BJJWZYJH012019100020098)。

关键词文本生成图像多域生成中国画生成 text-to-image generation multi-domain generation Chinese painting generation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1吴昊,徐丹.数字图像合成技术综述[J].中国图象图形学报,2012,17(11):1333-1346. 被引量：13
2胡涛,李金龙.基于单阶段GANs的文本生成图像模型[J].信息技术与网络安全,2021,40(6):50-55. 被引量：3
3谈馨悦,何小海,王正勇,罗晓东,卿粼波.基于Transformer交叉注意力的文本生成图像技术[J].计算机科学,2022,49(2):107-115. 被引量：5

二级参考文献60

1Porter T, Duff T. Compositing digital images [ C ] //Proceedingsof the 11th annual conference on Computer graphics and interac-tive techniques. New York, USA:ACM, 1984:253-259.
2Wang J, Cohen M F. Image and video matting : a survey [ J ].Foundations and Trends in Computer Graphics and Vision, 2007,3(2): 97-175.
3Smith A, Blinn J. Blue screen matting [ C ]// Proceedings of268.
4Ruzon M, Tomasi C. Alpha estimation in natural images [ C ] //Proceedings of IEEE CVPR 2000. Washington DC, USA: IEEEComputer Society, 2000:18-25.
5Chuang Y, Curless B, Salesin D, et al. A bayesian approach todigital matting [ C ] //Proceedings of IEEE CVPR 2001. Washing-ton DC, USA : IEEE Computer Society, 2001:264-271.
6Sindeyev M, Konushin V,Vezhnevets V. Improvements ofbayesian matting [ C ] //Proceedings of Graphicon 2007. Moscow,Russia: Moscow State Lomonosov University, 2007:88-95.
7Berman A, Vlahos P, Dadourian A. Comprehensive method forremoving from an image the background surrounding a selectedobject. US, 6135345[P]. 2000-10-17.
8Wang J,Cohen M. An iterative optimization approach for unifiedimage segmentation and matting [ C ] //Proceedings of IEEE ICCV2005.Washington DC, USA: IEEE Computer Society, 2005:936-943.
9Weiss Y,Freeman W. On the optimality of solutions of the max-product belief propagation algorithm in arebitrary graphs [ J ]. IEEETransaction on Information Theory, 2001, 47(2) : 303-308.
10Wang J, Cohen M. Optimized color sampling for robust matting[C ] //Proceedings of IEEE CVPR 2007. Washington DC,USA :IEEE Computer Society, 2007:1-8.

共引文献18

1乐飞,宋亚林,李小艳.基于改进部分卷积的瑕疵布匹图像生成算法[J].计算机系统应用,2022,31(12):187-194. 被引量：2
2黄美玉,陈益强,纪雯.马尔科夫随机场化的光照一致图像合成方法[J].计算机辅助设计与图形学学报,2015,27(4):691-702. 被引量：3
3李贝,汪浩,于佳骏,谢志峰,丁友东.颜色协调的鲁棒式图像克隆[J].系统仿真学报,2015,27(4):723-730. 被引量：3
4刘彬,薄华.一种新的局部运动模糊图像恢复与合成算法[J].电子设计工程,2013,21(12):114-116. 被引量：1
5张磊,陈永安,张富贵,丁煜生,王毅,袁奎,顾金梅.基于图像处理的烟叶等级标准图像合成算法研究[J].山地农业生物学报,2014,11(5):68-72. 被引量：7
6徐鹏,陆启宇,马奥,董明,任明,李腾飞,许侃.基于红外、超声和紫外技术的局部放电联合检测方法研究[J].红外,2016,37(9):42-48. 被引量：6
7杨文璐,郭迎春,李世杰,韩志峰,谢宏,夏斌.基于Kinect与Unity3D的增强现实应用的设计与实现[J].微型机与应用,2017,36(14):23-25. 被引量：3
8段佳蕙,段新涛.一种基于字典学习的含有多类型噪声的合成图像降噪方法研究[J].电脑知识与技术,2017,13(9X):197-198.
9程皓楠,王凯,刘世光.颜色风格自适应的图像克隆算法[J].图学学报,2017,38(5):700-705. 被引量：1
10张婷.基于图像条件的二元合成生成算法[J].西昌学院学报（自然科学版）,2020,34(2):69-72.

同被引文献9

1叶朗.说意境[J].文艺研究,1998(1):16-21. 被引量：159
2皮连生,蔡维静.超越布卢姆——试论“知识分类与目标导向”教学中的学习结果测量与评价[J].华东师范大学学报（教育科学版）,2000,18(2):40-49. 被引量：45
3魏艳涛,秦道影,胡佳敏,姚璜,师亚飞.基于深度学习的学生课堂行为识别[J].现代教育技术,2019,29(7):87-91. 被引量：37
4苏超,王国中.基于改进OpenPose的学生行为识别研究[J].计算机应用研究,2021,38(10):3183-3188. 被引量：19
5王立辉,杨贤昭,刘惠康,黄晶晶.基于GhostNet与注意力机制的行人检测跟踪算法[J].数据采集与处理,2022,37(1):108-121. 被引量：11
6郭俊奇,吕嘉昊,王汝涵,熊青云,张世峰,胡康颖.深度学习模型驱动的师生课堂行为识别[J].北京师范大学学报（自然科学版）,2021,57(6):905-912. 被引量：9
7黄勇康,梁美玉,王笑笑,陈徵,曹晓雯.基于深度时空残差卷积神经网络的课堂教学视频中多人课堂行为识别[J].计算机应用,2022,42(3):736-742. 被引量：15
8李坤,侯庆.基于注意力机制的轻量型人体姿态估计[J].计算机应用,2022,42(8):2407-2414. 被引量：7
9葛玉君.立新与开启——“中国式现代化”语境下的新时代美术[J].美术,2023(10):6-11. 被引量：2

引证文献2

1王禹钧,马致明.基于深度学习的学生课堂行为识别研究[J].软件工程,2023,26(7):40-43. 被引量：1
2黄梅荣,黄梓蒙.时代变迁下中国美术对“意境”的现代表达[J].美术,2024(7):140-142.

二级引证文献1

1刘琳.基于卷积神经网络的学生课堂行为识别系统设计[J].现代电子技术,2024,47(6):142-146.

1石林波,李华锋,张亚飞,谢明鸿.模态不变性特征学习和一致性细粒度信息挖掘的跨模态行人重识别[J].模式识别与人工智能,2022,35(12):1064-1077. 被引量：3
2彭卉,申红梅,方义松.基于ChatGPT的应用进展及趋势分析[J].互联网天地,2023(4):42-47. 被引量：3
3刘霞.生成式AI下一站:文本转视频技术与道德伦理挑战如影随形[J].中国科技财富,2023(4):13-14.
4冉占英.语文阅读教学嵌入“微写作”训练探赜[J].成才之路,2023(13):81-84.
5教改动态[J].四川教育,2023(14):2-2.
6李金桥,王文韫,夏凯凯,王财江.改进MobilenetV3-Small网络结构的药片定位识别方法[J].光学技术,2023,49(1):91-96.
7刘天义,吴祖煊,陈静静,姜育刚.面向视觉语言理解与生成的多模态预训练方法[J].软件学报,2023,34(5):2024-2034. 被引量：3
8廖宇芳,刘斌,于孟生,王希瑞,彭曦.基于IGOA-ELM的拱桥多节段吊装扣挂施工线形预测方法[J].公路交通科技,2022,39(11):95-105. 被引量：5
9熊良智,李领弟.郭店楚简引诗论及毛诗《都人士》的文本生成[J].四川师范大学学报（社会科学版）,2023,50(3):150-155. 被引量：1
10凌志,李幸,张婷,陈良,孙立宁.基于多层次知识蒸馏的连续图像语义分割方法[J].计算机集成制造系统,2023,29(4):1244-1253. 被引量：1

软件学报

2023年第5期

浏览历史

内容加载中请稍等...

基于多域VQGAN的文本生成国画方法研究被引量：2

参考文献3

二级参考文献60

共引文献18

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多域VQGAN的文本生成国画方法研究 被引量：2

参考文献3

二级参考文献60

共引文献18

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多域VQGAN的文本生成国画方法研究被引量：2