-
题名混合双注意力机制生成对抗网络的图像修复模型
被引量:4
- 1
-
-
作者
兰治
严彩萍
李红
郑雅丹
-
机构
杭州师范大学
杭州启源视觉科技有限公司
-
出处
《中国图象图形学报》
CSCD
北大核心
2023年第11期3440-3452,共13页
-
文摘
目的图像修复是指用合理的内容来填补图像缺失或损坏的部分。尽管生成对抗网络(generative adversarial network,GAN)取得了巨大的进步,但当缺失区域很大时,现有的大多数方法仍然会产生扭曲的结构和模糊的纹理。其中一个主要原因是卷积操作的局域性,它不考虑全局或远距离结构信息,只是扩大了局部感受野。方法为了克服上述问题,提出了一种新的图像修复网络,即混合注意力生成对抗网络(hybrid dual attention generative adversarial network,HDA-GAN),它可以同时捕获全局结构信息和局部细节纹理。具体地,HDA-GAN将两种级联的通道注意力传播模块和级联的自注意力传播模块集成到网络的不同层中。对于级联的通道注意力传播模块,将多个多尺度通道注意力块级联在网络的高层,用于学习从低级细节到高级语义的特征。对于级联的自注意力传播模块,将多个基于分块的自注意力块级联在网络的中低层,以便在保留更多的细节的同时捕获远程依赖关系。级联模块将多个相同的注意力块堆叠成不同的层,能够增强局部纹理传播到全局结构。结果本文采用客观评价指标:均方差(mean squared error,MSE)、峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性指数(structural similarity index,SSIM)在Paris Street View数据集和CelebA-HQ(CelebA-high quality)数据集上进行了大量实验。定量比较中,HDA-GAN在Paris Street View数据集上相比于Edge-LBAM(edge-guided learnable bidirectional attention maps)方法,在掩码不同的比例上,PSNR提升了1.28 dB、1.13 dB、0.93 dB和0.80 dB,SSIM分别提升了5.2%、8.2%、10.6%和13.1%。同样地,在CelebA-HQ数据集上相比于AOT-GAN(aggregated contextual transformations generative adversarial network)方法,在掩码不同的比例上,MAE分别降低了2.2%、5.4%、11.1%、18.5%和28.1%,PSNR分别提升了0.93 dB、0.68 dB、0.73 dB、0.84 dB和0.74 dB。通过可视化实验可以明显观察到修复效果优于以上方法。结论本文提出的图像修复方法,充分发挥了深度学习模型进行特征学习和图像生成的优点,使得修复图像缺失或损坏的部分更加准确。
-
关键词
图像修复
生成对抗网络(GAN)
级联的通道注意力传播模块
级联的自注意力传播模块
大面积修复
-
Keywords
image inpainting
generative adversarial network(GAN)
cascaded channel attention propagation module
cascaded self-attention propagation module
large area inpainting
-
分类号
TP751.1
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名多尺度密集注意力网络用于视网膜血管分割
被引量:3
- 2
-
-
作者
梁礼明
余洁
周珑颂
陈鑫
吴健
-
机构
江西理工大学电气工程与自动化学院
-
出处
《激光与光电子学进展》
CSCD
北大核心
2023年第6期112-121,共10页
-
基金
国家自然科学基金(51365017,61463018)
江西省自然科学基金面上项目(20192BAB205084)
江西省教育厅科学技术研究重点项目(GJJ170491)。
-
文摘
针对视网膜血管分割中有标签图像数据有限、血管结构复杂尺度不一且易受病变区域干扰等问题,提出一种多尺度密集注意力网络用于视网膜血管分割.首先,以U-Net架构为基础,引入并行空间和通道挤压激励注意力密集块(scSE-DB)代替传统卷积层,加强特征传播能力,实现了对特征信息的双重校准,使模型能更好地识别血管像素;其次,在网络底端嵌入级联空洞卷积模块,以捕获多尺度血管特征信息,提升网络获取深层语义特征的能力;最后,在公共数据集DRIVE、CHASE_DB1和STARE上进行实验,所提网络的准确率分别为96.50%、96.62%和96.75%,灵敏度分别为84.17%、83.34%和80.39%,特异性分别为98.22%、97.95%和98.67%.所提网络的整体分割性能优于现有多数先进算法.
-
关键词
图像处理
视网膜血管分割
级联空洞卷积
并行空间和通道挤压激励模块
注意力密集块
-
Keywords
image processing
retinal vessel segmentation
cascaded dilated convolution
concurrent spatial and channel squeeze and channel excitation module
attention dense block
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向室内场景的语义分割网络
被引量:1
- 3
-
-
作者
顾嘉城
龙英文
吉明明
郑旸
-
机构
上海工程技术大学电子电气工程学院
-
出处
《激光与红外》
CAS
CSCD
北大核心
2023年第4期615-625,共11页
-
基金
国家自然科学基金项目(No.61603241)资助。
-
文摘
现有RGB-D语义分割方法难以充分地融合深度信息来实现对复杂场景的语义分割,为了能更精确地在室内场景RGB图中进行识别内部物体,提出一种基于通道注意力机制的非对称三分支结构型卷积网络语义分割模型。该方法能选择性地从RGB图和深度图像中收集特征。先构建了一个具有三个并行分支的体系结构,并添加了三个互补的注意模块。且运用了双向跨模块特征传播策略,不仅可以保留原始RGB图像和深度图像的特征,还能充分利用融合分支的深度特征。在两个室内场景数据集(NYUDv2数据集和SUN-RGBD数据集)进行了对照实验和消融研究。结果表明,所提出的模型与目前最好的表现方法注意力互补网络(ACNet)对比下,像素精度、平均像素精度、平均交并比分别提高了0.9%、1.3%、1.7%,在镜子、书本、箱子等小物体的语义分割交并比指标提高了7.2%、9.6%、11.2%。验证了提出的模型在处理室内场景具更强的适用性。
-
关键词
RGB-D语义分割
双向跨模块特征传播策略
通道注意力机制
室内场景
-
Keywords
RGB-D semantic segmentation
bi-directional cross-modality feature propagation
channel attention mechanism
indoor scene
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-