-
题名面向X射线图像生成的遮罩增强扩散模型
- 1
-
-
作者
申京傲
李广明
王怀济
吴京
-
机构
东莞理工学院计算机科学与技术学院
海南大学计算机科学与技术学院
-
出处
《东莞理工学院学报》
2024年第5期9-17,共9页
-
基金
国家自然科学基金青年科学基金资助项目(62106046)
广东大学生科技创新培育专项资金项目(Pdjh2002a0505)。
-
文摘
目前用于生成X射线图像的方法中存在主体过拟合和背景欠拟合等问题,针对此类问题,基于去噪扩散概率模型DDPM(Denoising Diffusion Probability Model)提出了一种新型图像生成模型MDDPM(Masked DDPM),设计一种无监督图像分割方法对X射线图像进行分割,将分割后得到的二值图像作为遮罩加权到损失函数,增强扩散模型;设计一种含有增强型SE注意力块的卷积块ESE Block(Enhanced Squeeze-and-Excitation Block),结合注意力机制和上、下采样模块等搭建U-Net结构的神经网络,进一步提高网络的学习、表征和泛化能力。使用MDDPM在OPIXray数据集上验证了对X射线违禁品图像进行增广的可行性,针对五个类别的违禁品,实验结果表明,相比于DDPM,MDDPM的生成图像质量分布差异指标FID分别提升了18.3%、24.82%、32.85%、29.12%和33.62%。将使用本模型生成的图像与原始图像进行混合,与只使用原始图像进行图像分类实验相比,分类精确度提高了3.2%,此结果表明,生成的图像不仅保留了原始数据的特征,而且提高了数据高维特征的多样性。
-
关键词
扩散模型
数据增广
X射线图像
图像生成
-
Keywords
diffusion model
data augmentation
x-ray image
image generation
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名融合卷积通道注意力的遥感图像目标检测方法
- 2
-
-
作者
王怀济
李广明
张红良
申京傲
吴京
-
机构
东莞理工学院计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第2期200-210,共11页
-
基金
国家自然科学基金青年科学基金项目(62106046)
广东大学生科技创新培育专项资金项目(Pdjh2002a0505)。
-
文摘
针对遥感目标检测中,目标分布不均匀、排列杂乱、大长宽比和尺寸变化剧烈等导致目标定位困难的问题,提出了一种融合卷积通道注意力的旋转目标检测方法。基于k-means进行改进,设计了在最优解下增加聚类簇之间距离的锚框设计方法;基于YOLOv5进行改进,设计融合卷积通道注意力的网络模型,增强主干网络传达给特征金字塔顶层和底层的语义和定位特征;设计包含覆盖面积、中心点距离、宽高比和角度损失四种要素的目标框损失函数;优化YOLOv5的目标框宽高回归函数,自适应生成回归预测范围。实验在两个遥感公共数据集UCAS-AOD和HRSC2016上分别与5种具有代表性的方法进行比较,在UCAS-AOD数据集上,平均精度mAP达到了95.9%,相比于CSL方法,mAP提升了0.8个百分点;在HRSC2016数据集上,平均精度mAP达到了96.3%,速度FPS达到了77.5,相比于R3Det方法,mAP提升了0.3个百分点,FPS提升了5.46倍。实验结果表明,方法的整体性能超过了近年来一些代表性的方法,在两个遥感数据集中验证了方法的有效性。
-
关键词
旋转目标检测
YOLO
锚框
卷积通道注意力
回归函数优化
损失函数重构
-
Keywords
rotating object detection
YOLO
anchor
convolution channel attention
regression function optimization
loss function reconstruction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于先验词汇机制的图像描述生成方法
- 3
-
-
作者
吴京
李广明
张红良
申京傲
李杰
-
机构
东莞理工学院计算机科学与技术学院
-
出处
《东莞理工学院学报》
2024年第5期18-25,共8页
-
基金
国家自然科学基金青年科学基金资助项目(62106046)
广东大学生科技创新培育专项资金项目(Pdjh2002a0505)。
-
文摘
先验知识指导模型训练广泛使用于目标检测和图像检索等计算机视觉领域中,运用先验框、标签、分类信息作为先验知识可以提高模型的精度和效率。在图像描述领域中通常采用图像特征或历史语义信息作为先验知识,但忽略了图像本身的先验信息。为了在图像描述方法中获取图像的先验信息,笔者提出一种基于先验词汇机制的图像描述生成方法(priori vocabulary mechanisms,PVM),采用Faster R-CNN提取图像特征;提出一种融合多示例学习的先验词汇生成方法是提取图像中的先验词汇,设计先验特征提取模块,从先验词汇和图像特征提取先验特征;最后将先验特征输入到改进的Transformer生成描述语句,从而指导模型融合图像的先验信息。使用MSCOCO数据集对实验进行评估,在BLEU_4和CIDEr上分别为38.7%和128.5%,相较于基准模型分别提升了1.7%和6.7%,这表明该模型生成的描述文本更加准确丰富,证明方法有效。
-
关键词
图像描述
多示例学习
先验特征
先验特征提取模块
TRANSFORMER
-
Keywords
image caption
multiple-instance learning
priori feature
priori feature extraction module
Transformer
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-