-
题名文本到图像生成方法的研究进展
被引量:1
- 1
-
-
作者
王鹏
-
机构
南京信息工程大学人工智能学院(未来技术学院)
-
出处
《信息技术》
2024年第7期148-159,共12页
-
文摘
跨模态学习是人工智能领域中长期研究的课题之一,依据文本描述生成图像成为近几年的热门研究领域,主要任务是根据文本描述生成和文本高度相关性的图像。文中总结了文本到图像生成领域中的研究现状和最新进展,从生成框架上将生成模型分为生成对抗网络框架方法和非生成对抗网络方法,又根据训练策略将生成对抗网络框架方法细分为单阶段、多阶段和额外监督等类别,同时介绍了经典的一些非生成对抗网络方法。最后给出文本生成图像任务采用的数据集和评估标准,提出了当前方法的不足和尚未解决的问题,指出了未来的研究方法。
-
关键词
文本到图像生成
生成对抗网络
扩散模型
单阶段生成
多阶段生成
-
Keywords
text to image generation
generative adversarial networks
diffusion models
single-stage generation
multi-stage generation
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于条件语义增强的文本到图像生成
- 2
-
-
作者
余凯
宾燚
郑自强
杨阳
-
机构
电子科技大学计算机科学与工程学院
电子科技大学(深圳)高等研究院
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第5期2150-2164,共15页
-
基金
国家自然科学基金(62102070,U20B2063,62220106008)
四川省科技计划(2023NSFSC1392)。
-
文摘
文本到图像生成取得了视觉上的优异效果,但存在细节表达不足的问题.于是提出基于条件语义增强的生成对抗模型(conditional semantic augmentation generative adversarial network,CSA-GAN).所提模型首先将文本进行编码,使用条件语义增强对其进行处理.之后,提取生成器的中间特征进行上采样,再通过两层CNN生成图像的掩码.最后将文本编码送入两个感知器处理后和掩码进行融合,充分融合图像空间特征和文本语义,以提高细节表达.为了验证所提模型的生成图像的质量,在不同的数据集上进行定量分析、定性分析.使用IS(inception score)、FID(Frechet inception distance)指标对图像清晰度,多样性和图像的自然真实程度进行定量评估.定性分析包括可视化生成的图像,消融实验分析具体模块等.结果表明:所提模型均优于近年来同类最优工作.这充分验证所提出的方法具有更优性能,同时能够优化图像生成过程中一些主体特征细节的表达.
-
关键词
文本到图像生成
条件语义增强
空间-语义融合
-
Keywords
text-to-image generation
conditional semantic augmentation(CSA)
spatial-semantic fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的文本到图像生成方法综述
被引量:11
- 3
-
-
作者
王宇昊
何彧
王铸
-
机构
贵州天衍炬恒科技有限公司
北京大学地球与空间科学学院
贵州师范大学地理与环境科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第10期50-67,共18页
-
文摘
文本到图像生成方法采用自然语言与图像集特征的映射方式,根据自然语言描述生成相应图像,利用语言属性智能地实现视觉图像的通用性表达。基于卷积神经网络的深度学习技术是当前文本到图像生成的主流方法,为系统地了解该领域的研究现状和发展趋势,按照模型构建及技术实现形式的不同,将已有的技术方法分为直接图像法、分层体系结构法、注意力机制法、周期一致性法、自适应非条件模型法及附加监督法共六类。分别对这些方法进行总结归纳和讨论,论述其构建思路、模型特点、优势及局限性,并对主要的评价指标开展分析对比,最后讨论该技术在模型方法、评价方法和技术改进等方面面临的挑战及未来展望。
-
关键词
文本到图像生成方法
深度学习
卷积神经网络
评价指标
-
Keywords
text-to-image generation method
deep learning
convolutional neural network
evaluation indicator
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名发掘和利用:细粒度层次化网络的文本到图像生成
- 4
-
-
作者
申恒涛
赵启轲
朱俊臣
高联丽
陈岱渊
宋井宽
-
机构
电子科技大学计算机科学与工程学院
之江实验室
-
出处
《中国科技论文》
CAS
北大核心
2023年第3期238-244,共7页
-
基金
之江实验室开放课题资助项目(2019KD0AD01/011)。
-
文摘
针对现有文本到图像生成(text-to-image synthesis,T2I)方法采用冗余的阶段性网络结构,同时缺乏对文本特性有效利用从而影响网络完全收敛的问题,提出了一种细粒度的层次化生成对抗网络(generative adversarial networks,GAN)。该网络利用多维度文本特征提取器充分地“发掘”(explore)文本语义特征;通过堆叠层次化模块,即空间仿射生成模块和累加结合模块,更好地“利用”(exploit)主干网络的生成性能。在3个基准数据集上的实验充分表明,所提方法在量化指标和可视化效果方面均显著领先于现有方法。实现代码已经公开在https:∥github.com/qikizh/EE-GAN。
-
关键词
跨模态生成
文本到图像生成
生成对抗网络
层次化网络
多维度文本特征提取器
-
Keywords
cross-model generation
text-to-image synthesis(T2I)
generative adversarial networks(GAN)
hierarchical networks
multi-level text encoder
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-