-
题名基于渐进式GAN逆映射的人脸超分辨率重建
- 1
-
-
作者
孙红
赵迎志
罗琦
袁巫凯
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《控制工程》
CSCD
北大核心
2024年第9期1572-1580,共9页
-
基金
国家自然科学基金资助项目(61472256,61170277,61703277)。
-
文摘
为了缓解生成对抗网络(generative adversarial network,GAN)自身存在的训练不稳定问题,增强图像超分辨率重建的效果,提出一种基于GAN逆映射的图像超分辨率重建算法。通过渐进式网络增加模型的稳定性,通过逆映射金字塔充分学习低分辨人脸图像的语义特征,实现准确的隐空间转换,通过半空间特征调制进行图像增强。对所提算法进行实验验证,该算法在Celeb A数据集上重建8倍后的图像峰值信噪比为27.18 dB,相比超分辨率生成对抗网络(super-resolution generative adversarial network,SRGAN),提高了2.44 dB,模型的收敛速度也更快。实验结果表明,通过GAN逆映射和渐进的方式进行图像超分辨率重建具有较好的效果和更高的稳定性。
-
关键词
半空间特征调制
逆映射金字塔
渐进式网络
超分辨率重建
生成对抗网络
-
Keywords
Half spatial feature transform
inversion pyramid
progressive network
super-resolution reconstruction
generative adversarial network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多尺度梯度的轻量级生成对抗网络
被引量:1
- 2
-
-
作者
孙红
赵迎志
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《电子科技》
2023年第7期32-38,共7页
-
基金
国家自然科学基金(61472256,61170277,61703277)。
-
文摘
随着生成对抗网络研究的推进,网络模型的计算量急剧增加,其自身的训练不稳定问题依然存在,生成图像的质量也有待提升。为解决以上问题,文中提出一种轻量级生成对抗网络模型,引入多尺度梯度结构解决训练不稳定的问题。通过融合自注意力机制和动态卷积的思想,利用循环模块和图像增强模块,在保持较少参数的前提下提高模型的学习能力。对文中所提算法进行验证,实验结果表明该算法在CelebA数据集上的IS(Inception Score)值为2.75,FID(Fréchet Inception Distance)值为70.1,在LSUN数据集上的IS值为2.61,FID值为73.2,相比SAGAN、DCGAN等经典模型性有所提高,验证了该算法可行性和性能。
-
关键词
多尺度梯度
动态卷积
循环块
半注意力机制
注意力稀疏化
卷积网络
深度学习
图像生成
生成对抗网络
-
Keywords
multi-scale gradient
dynamic convolution
cyclic block
half-attention mechanism
sparse attention
convolutional neural networks
deep learning
image generation
generative adversarial net
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于自适应融合和注意力细化的语义分割模型
- 3
-
-
作者
魏赟
罗琦
赵迎志
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《系统仿真学报》
CAS
CSCD
北大核心
2023年第6期1226-1234,共9页
-
基金
国家重点研发计划(2018YFB1700902)。
-
文摘
针对现有语义分割中存在的上下文信息利用不足和细节信息丢失等问题,提出了一种基于自适应融合和注意力细化的语义分割模型。该模型在编码的过程中引入一个自适应融合模块,通过让每个特征图按照相应的权重进行融合的方式来解决上下文信息利用不足的问题。在解码的过程中设计了一个注意力细化模块,使低阶特征与高阶特征之间能够进行相互指导优化,从而解决细节信息丢失的问题。实验结果表明:该模型在PASCAL VOC 2012数据集上的平均交并比达到了83.7%,比基于编解码的语义分割模型提高了1.1%;在Cityscapes数据集上取得了81.7%的平均交并比,进一步验证了该模型的泛化性。
-
关键词
语义分割
金字塔池化
注意力机制
自适应融合
编码-解码架构
-
Keywords
semantic segmentation
pyramid pooling
attention mechanism
adaptive fusion
encoding-decoding architecture
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名引入反馈注意力的并行式多分辨率语义分割算法
- 4
-
-
作者
孙红
袁巫凯
赵迎志
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《包装工程》
CAS
北大核心
2023年第1期141-150,共10页
-
基金
国家自然科学基金(61472256,61170277,61703277)。
-
文摘
目的 为了进一步提升语义分割精度,解决当前语义分割算法中特征图分辨率低下,低级信息特征随意丢弃,以及上下文重要信息不能顾及等问题,文中尝试提出一种融合反馈注意力模块的并行式多分辨率语义分割算法。方法 该算法提出一种并行式网络结构,在其中融合了高低分辨率信息,尽可能多地保留高维信息,减少低级信息要素的丢失,提升分割图像的分辨率。同时还在主干网络中嵌入了带反馈机制的感知注意力模块,从通道、空间、全局3个角度获得每个样本的权重信息,着重加强样本之间的特征重要性。在训练过程中,还使用了改进的损失函数,降低训练和优化难度。结果 经实验表明,文中的算法模型在PASCAL VOC2012、Camvid上的MIOU指标分别为77.78%、58.67%,在ADE20K上的也有42.52%,体现了出较好的分割性能。结论 文中的算法模型效果相较于之前的分割网络有一定程度的提升,算法中的部分模块嵌入别的主干网络依旧表现出较好的性能,展现了文中算法模型具备一定的有效性和泛化能力。
-
关键词
图像语义分割
反馈式注意力
多分辨率
-
Keywords
image semantic segmentation
feedback attention
multi-resolution
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于生成对抗网络的文本生成图像研究综述
被引量:2
- 5
-
-
作者
李乐阳
佟国香
赵迎志
罗琦
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《电子科技》
2023年第10期39-55,共17页
-
基金
国家重点研发计划项目(2018YFB1700902)。
-
文摘
文本生成图像是指将语句形式的文本描述翻译成与文本具有相似语义的图像。在早期研究中,图像生成任务主要基于关键字或语句的检索来实现与文本匹配的视觉内容的对齐。随着生成对抗网络的出现,文本生成图像的方法在视觉真实感、多样性和语义相似性方面取得了重大进展。生成对抗网络通过生成器和鉴别器之间的对抗来生成合理且真实的图像,并在图像修复和超分辨率生成等领域显示出良好的能力。在回顾并总结文本生成图像领域最新研究成果的基础上,文中提出了一种新的分类方法,即注意力增强、多阶段增强、场景布局增强和普适性增强,并讨论了文本生成图像面临的挑战和未来的发展方向。
-
关键词
图像生成
视觉内容对齐
文本匹配
生成器
鉴别器
语义相似性
生成对抗网络
场景布局
-
Keywords
image generation
aligning the visual content
text matching
generator
discriminator
semantic similarity
generative adversarial network
scene layout
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-