基于自编码器生成对抗网络的可配置文本图像编辑被引量：4

Configurable Text-based Image Editing by Autoencoder-based Generative Adversarial Networks

下载PDF

导出

摘要基于文本的图像编辑是多媒体领域的一个研究热点并具有重要的应用价值.由于它是根据给定的文本编辑源图像,而文本和图像的跨模态差异很大,因此它是一项很具有挑战的任务.在对编辑过程的直接控制和修正上,目前方法难以有效地实现,但图像编辑是用户喜好导向的,提高可控性可以绕过或强化某些编辑模块以获得用户偏爱的结果.针对该问题,提出一种基于自动编码器的文本图像编辑模型.为了提供便捷且直接的交互配置和编辑接口,该模型在多层级生成对抗网络中引入自动编码器,该自动编码器统一多层级间高维特征空间为颜色空间,从而可以对该颜色空间下的中间编辑结果进行直接修正.其次,为了增强编辑图像细节及提高可控性,构造了对称细节修正模块,它以源图像和编辑图像为对称可交换输入,融合文本特征以对前面输入编辑图像进行修正.在MSCOCO和CUB200数据集上的实验表明,该模型可以有效地基于语言描述自动编辑图像,同时可以便捷且友好地修正编辑效果. Text-based image editing is popular in multimedia and is of great application value, which is also a challenging task as the source image is edited on the basis of a given text, and there is a large cross-modal difference between the image and text. The existing methods can hardly achieve effective direct control and correction of the editing process, but image editing is user preference-oriented, and some editing modules can be bypassed or enhanced by controllability improvement to obtain the results of user preference. Therefore, this study proposes a novel autoencoder-based image editing model according to text descriptions. In this model, an autoencoder is first introduced in stacked generative adversarial networks(SGANs) to provide convenient and direct interactive configuration and editing interfaces. The autoencoder can transform high-dimension feature space between multiple layers into color space and directly correct the intermediate editing results under the color space. Then, a symmetrical detail correction module is constructed to enhance the detail of the edited image and improve controllability, which takes the source image and the edited image as symmetrical exchangeable input to correct the previously input edited image by the fusion of text features. Experiments on the MS-COCO and CUB200 datasets demonstrate that the proposed model can effectively and automatically edit images on the basis of linguistic descriptions while providing user-friendly and convenient corrections to the editing.

作者吴福祥程俊 WU Fu-Xiang;CHENG Jun(Guangdong Provincial Key Laboratory of Robotics and Intelligent System,Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 518055,China)

机构地区中国科学院深圳先进技术研究院广东省机器人与智能系统重点实验室

出处《软件学报》 EI CSCD 北大核心 2022年第9期3139-3151,共13页 Journal of Software

基金国家自然科学基金(U21A20487) 深圳市基础研究项目(JCYJ20200109113416531,JCYJ20180507182610734) 中国科学院关键技术人才项目。

关键词基于文本的图像编辑生成对抗网络交互编辑 text-based image editing generative adversarial networks(GANs) interactive editing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1陈佛计,朱枫,吴清潇,郝颖明,王恩德,崔芸阁.生成对抗网络及其在图像生成中的应用研究综述[J].计算机学报,2021,44(2):347-369. 被引量：74
2杨婉香,严严,陈思,张小康,王菡子.基于多尺度生成对抗网络的遮挡行人重识别方法[J].软件学报,2020,31(7):1943-1958. 被引量：17

二级参考文献3

1宋婉茹,赵晴晴,陈昌红,干宗良,刘峰.行人重识别研究综述[J].智能系统学报,2017,12(6):770-780. 被引量：40
2林懿伦,戴星原,李力,王晓,王飞跃.人工智能研究的新前线：生成式对抗网络[J].自动化学报,2018,44(5):775-792. 被引量：82
3唐贤伦,杜一铭,刘雨微,李佳歆,马艺玮.基于条件深度卷积生成对抗网络的图像识别方法[J].自动化学报,2018,44(5):855-864. 被引量：140

共引文献88

1杜文风,王英奇,王辉,赵艳男,高博青,董石麟.基于边界平衡生成对抗网络的十字板式节点新构形智能生成方法[J].建筑结构学报,2022,43(S01):315-324. 被引量：1
2李健,庞留记,吴浩,王心宇.融合注意力机制的改进Mask-RCNN遥感影像建筑物提取[J].测绘科学,2024,49(1):79-89.
3殷柯欣,廖冰冰,胡文楠,包芳.遮挡人脸表情图像预处理研究进展[J].长春工业大学学报,2021,42(2):153-159. 被引量：3
4夏道勋,郭方,刘浩杰,夏勇.开放式行人再识别研究进展综述[J].数据采集与处理,2021,36(3):449-467. 被引量：2
5李健宁,路阳,陶贤鹏,林立媛,孙桐.基于WGAN-GP的水稻病害图像生成方法研究[J].信息记录材料,2021,22(8):235-238. 被引量：1
6陈大卫,付安民,周纯毅,陈珍珠.基于生成式对抗网络的联邦学习后门攻击方案[J].计算机研究与发展,2021,58(11):2364-2373. 被引量：11
7曾明昭,高会议,万莉.基于生成对抗网络的葡萄叶片图像数据增强方法[J].仪表技术,2021(5):41-44. 被引量：3
8谌贵辉,刘会康,李忠兵,彭娇,汪少天,林瑾瑜.基于仲裁机制的生成对抗网络改进算法[J].计算机应用,2021,41(11):3185-3191. 被引量：1
9王凯旋,任福继,倪红军,吕帅帅,汪兴兴.基于循环互相关系数的CGAN温度值图像扩增[J].智能系统学报,2022,17(1):32-40. 被引量：2
10徐胜军,刘求缘,史亚,孟月波,刘光辉,韩九强.基于多样化局部注意力网络的行人重识别[J].电子与信息学报,2022,44(1):211-220. 被引量：5

同被引文献18

1谢斌,汪宁,范有伟.相关对齐的总变分风格迁移新模型[J].中国图象图形学报,2020,0(2):241-254. 被引量：6
2顾广华,曹宇尧,李刚,赵耀.基于语义标签生成和偏序结构的图像层级分类[J].软件学报,2020,31(2):531-543. 被引量：7
3刘琳茜,李永康,索红军.云服务安全平台研究开发与语音识别应用[J].软件导刊,2014,13(1):7-8. 被引量：2
4解皓,梁建国,程涛.无线传感器网络定位算法研究[J].软件导刊,2015,14(9):80-82. 被引量：2
5邓丹君,姚莉.基于改进TF-IDF的微博短文本特征词提取算法[J].软件导刊,2016,15(6):48-50. 被引量：7
6张端.煤矿水灾害危险源辨识及防控研究[J].能源与节能,2017(5):8-9. 被引量：2
7纪汉霖,黄嘉冬.我国人工智能产业发展及应用研究[J].软件导刊,2019,18(3):34-38. 被引量：9
8陈健,白琮,马青,郝鹏翼,陈胜勇.面向细粒度草图检索的对抗训练三元组网络[J].软件学报,2020,31(7):1933-1942. 被引量：2
9杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：25
10王佳楠,梁永全.中文分词研究综述[J].软件导刊,2021,20(4):247-252. 被引量：14

引证文献4

1杨百冰,陈泯融,叶勇森.结合生成对抗网络及多角度注意力的图像翻译模型[J].计算机系统应用,2023,32(4):283-292.
2李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑[J].软件学报,2023,34(5):2101-2115. 被引量：3
3孙长春,黄晓凡,苏令印,徐金陵,汤效平,王兹尧,林泽东.井下险情模糊位置辨析方法[J].软件导刊,2023,22(8):99-103.
4余凯,宾燚,郑自强,杨阳.基于条件语义增强的文本到图像生成[J].软件学报,2024,35(5):2150-2164.

二级引证文献3

1余凯,宾燚,郑自强,杨阳.基于条件语义增强的文本到图像生成[J].软件学报,2024,35(5):2150-2164.
2马迎辉,郝莉萍,李晓丹.基于深度学习与随机森林的人脸图像年龄估计方法[J].信息与电脑,2024,36(6):35-37.
3刘真光,朱玉佳,王勇,傅湘玲,赵一姣,陈晋鹏.基于点云处理网络的三维颜面正中矢状面预测模型[J].山东大学学报（工学版）,2024,54(3):30-35.

1赵泽恒,赵劲松.基于破坏性实验和自动编码器的风机皮带剩余寿命预测[J].清华大学学报（自然科学版）,2022,62(9):1458-1466. 被引量：1
2张锐.层层递进并多面讲述的《音乐文本编辑理论与实践》[J].黄河之声,2022(7):165-167. 被引量：1
3谢坤亮,易任娇,周海芳,朱晨阳,刘豫皖,徐凯.基于逆渲染的单张图像高效材质编辑[J].激光与光电子学进展,2022,59(14):161-169. 被引量：1
4陆剑峰,夏路遥,张浩,徐萌颖.制造企业数字孪生生态系统的研究与应用[J].计算机集成制造系统,2022,28(8):2273-2290. 被引量：9
5张凯鑫,杨晨,李顺东.字符串匹配的保密计算[J].密码学报,2022,9(4):619-632.
6青山未老[J].围棋天地,2022(17):17-17.

软件学报

2022年第9期

浏览历史

内容加载中请稍等...

基于自编码器生成对抗网络的可配置文本图像编辑被引量：4

参考文献2

二级参考文献3

共引文献88

同被引文献18

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于自编码器生成对抗网络的可配置文本图像编辑 被引量：4

参考文献2

二级参考文献3

共引文献88

同被引文献18

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于自编码器生成对抗网络的可配置文本图像编辑被引量：4