摘要
为了提高多模态图像的融合效果,提出一种基于交叉自注意力的多模态图像融合网络,主要利用卷积运算和视觉Transformer的优势进行多模态的图像数据融合。网络采用了双分支结构,首先,将可见光图像与红外图像分别经过相同的卷积模块获取模态特征,为了更有效地学习不同模态图像间的局部关联信息和全局关联信息。其次,将输入图像特征转化为序列模块特征后输入Transformer模块,采用交叉自注意力机制模拟Transformer模块中不同模态图像的对应关系,增加数据解析的维度,提高融合网络对全局信息的保留;然后设计了一个自残差空洞卷积连接网络,用于获得卷积过程中忽略的局部重要信息,增强网络对重点信息的提取能力;最后将融合得到的特征信息通过后续的卷积神经网络获得融合后的图像。为验证方法的有效性,在多模态数据集MS-COCO中的两个公开的红外和可见光图像数据集、磁共振成像和正电子放射断层造影术数据集上进行了大量的实验,并进行定性和定量分析,结果表明,所提出的模型相较于主流融合方法能够取得更好地融合效果。
出处
《装备制造技术》
2024年第9期21-25,共5页
Equipment Manufacturing Technology