【目的】针对红外相机拍摄的野生动物图像数据量大、无效图像占比多、图像背景复杂等问题,提出一种可对图像进行自动、高准确率识别的模型,为生物多样性研究和野生动物保护工作提供更高效的支持。【方法】收集整理近4年来北京园林绿化...【目的】针对红外相机拍摄的野生动物图像数据量大、无效图像占比多、图像背景复杂等问题,提出一种可对图像进行自动、高准确率识别的模型,为生物多样性研究和野生动物保护工作提供更高效的支持。【方法】收集整理近4年来北京园林绿化生态系统监测网络各站点红外相机拍摄的约5 TB图像数据,对其手工标注并进行数据增强后自建10类共4234张图像数据集。基于ConvNeXt卷积神经网络,结合北京地区野生动物图像数据集特点,设计BSGG-ConvNeXt模型,使用BlurPool、SENet、全局响应归一化层(GRN)、GCNet提升模型识别能力,并在自建数据集上探究训练策略对ConvNeXt网络识别准确率的影响,通过与其他经典模型比较,明确BSGG-ConvNeXt模型的优势。利用公开的红外野生动物Snapshot Serengeti(SS)数据集和Caltech Camera Traps(CCT)数据集,验证模型的泛化能力。【结果】以ConvNeXt的ConvNeXt-T网络尺寸模型为例,其在自建数据集中的准确率为74.13%,乘加累积操作数(MACs)为4.47×10^(9)。应用不同改进方案发现,使用BlurPool后准确率提升2.2%,MACs降至1.07×10^(9);使用SENet后准确率提升3.2%;使用GRN并删掉缩放层后准确率升至87.18%,参数数量增至27.88×10^(6);使用GCNet后在不增大计算量的情况下准确率升至75.44%,但参数数量增至28.25×10^(6)。将上述改进方案结合得到的BSGGConvNeXt应用于ConvNeXt-T模型获得BSGG-ConvNeXt-T模型,参数数量虽有少量增多,但MACs降为1.07×10^(9),模型准确率升至83.63%,高于原模型。使用预训练权重后的BSGG-ConvNeXt-T模型准确率可达94.07%,高于ResNet-50(76.39%)、ResNeXt-50(87.60%)、MobileViT(90.00%)、DenseNet(87.66%)、RegNet(69.90%)、ConvNeXtv2(91.93%)、SwinTransformer的(86.23%)和MobileOne(71.53%),将BSGG-ConvNeXt模型应用于4种不同网络尺寸的ConvNeXt模型后,在自建数据集中的表现均优于未改进模型。BSGG-ConvNeXt模型在SS数据集中的识别准确率达50.28%,在CCT数据集中的识别准确率达56.15%,均高于原模型的准确率。【结论】BSGG-ConvNeXt模型识别红外相机拍摄的野生动物图像准确率更高,在自建、公开的野生动物红外图像数据集上均有较好表现,且具有一定泛化能力。展开更多
文摘【目的】针对红外相机拍摄的野生动物图像数据量大、无效图像占比多、图像背景复杂等问题,提出一种可对图像进行自动、高准确率识别的模型,为生物多样性研究和野生动物保护工作提供更高效的支持。【方法】收集整理近4年来北京园林绿化生态系统监测网络各站点红外相机拍摄的约5 TB图像数据,对其手工标注并进行数据增强后自建10类共4234张图像数据集。基于ConvNeXt卷积神经网络,结合北京地区野生动物图像数据集特点,设计BSGG-ConvNeXt模型,使用BlurPool、SENet、全局响应归一化层(GRN)、GCNet提升模型识别能力,并在自建数据集上探究训练策略对ConvNeXt网络识别准确率的影响,通过与其他经典模型比较,明确BSGG-ConvNeXt模型的优势。利用公开的红外野生动物Snapshot Serengeti(SS)数据集和Caltech Camera Traps(CCT)数据集,验证模型的泛化能力。【结果】以ConvNeXt的ConvNeXt-T网络尺寸模型为例,其在自建数据集中的准确率为74.13%,乘加累积操作数(MACs)为4.47×10^(9)。应用不同改进方案发现,使用BlurPool后准确率提升2.2%,MACs降至1.07×10^(9);使用SENet后准确率提升3.2%;使用GRN并删掉缩放层后准确率升至87.18%,参数数量增至27.88×10^(6);使用GCNet后在不增大计算量的情况下准确率升至75.44%,但参数数量增至28.25×10^(6)。将上述改进方案结合得到的BSGGConvNeXt应用于ConvNeXt-T模型获得BSGG-ConvNeXt-T模型,参数数量虽有少量增多,但MACs降为1.07×10^(9),模型准确率升至83.63%,高于原模型。使用预训练权重后的BSGG-ConvNeXt-T模型准确率可达94.07%,高于ResNet-50(76.39%)、ResNeXt-50(87.60%)、MobileViT(90.00%)、DenseNet(87.66%)、RegNet(69.90%)、ConvNeXtv2(91.93%)、SwinTransformer的(86.23%)和MobileOne(71.53%),将BSGG-ConvNeXt模型应用于4种不同网络尺寸的ConvNeXt模型后,在自建数据集中的表现均优于未改进模型。BSGG-ConvNeXt模型在SS数据集中的识别准确率达50.28%,在CCT数据集中的识别准确率达56.15%,均高于原模型的准确率。【结论】BSGG-ConvNeXt模型识别红外相机拍摄的野生动物图像准确率更高,在自建、公开的野生动物红外图像数据集上均有较好表现,且具有一定泛化能力。