针对SAR图像船舶检测任务在船舶组合和船舶融合场景下低检测精度的问题,提出了一种轻量化船舶检测算法——RGDET-Ship,有效提高了SAR图像在复杂场景下的船舶检测精度。该算法的创新点包括:①构建基于改进ResNet的基础主干网络,增强深浅...针对SAR图像船舶检测任务在船舶组合和船舶融合场景下低检测精度的问题,提出了一种轻量化船舶检测算法——RGDET-Ship,有效提高了SAR图像在复杂场景下的船舶检测精度。该算法的创新点包括:①构建基于改进ResNet的基础主干网络,增强深浅网络早特征融合,保留更丰富的有效特征图,并利用RegNet进行模型搜索得到一簇最优结构子网络RegNet and Early-Add(RGEA),实现模型的轻量化;②在FPN Neck基础上,结合EA-fusion策略设计出FPN and Early Add Fusion(FEAF)Neck网络,进一步加强深浅特征晚融合,提高中大船舶目标特征的提取;③通过细粒度分析改进RPN网络得到Two-RPN(TRPN)网络,提高模型的检测粒度和预测框准确性;④引入多任务损失函数——Cross Entropy Loss and Smooth L1 Loss(CE_S),包括分类任务和回归任务,进一步提升检测性能。通过在标准基准数据集SSDD上进行大量实验,验证了RGDET-Ship模型的有效性和健壮性。实验结果表明,相较于Faster RCNN和Cascade RCNN,RGDET-Ship在mAP_0.5:0.95上分别提升了5.6%和3.3%,在AR上分别提升了9.8%和7.6%。展开更多
由于稠密网络(DenseNet)模型具有独特的特征提取和传输方式,使其面对小数据集时在缓解网络过拟合的同时,可以取得不错的分类效果。但是传统的DenseNet模型具有较深的网络结构,可能造成特征冗余和硬件内存的负担。针对该问题,研究了一种...由于稠密网络(DenseNet)模型具有独特的特征提取和传输方式,使其面对小数据集时在缓解网络过拟合的同时,可以取得不错的分类效果。但是传统的DenseNet模型具有较深的网络结构,可能造成特征冗余和硬件内存的负担。针对该问题,研究了一种相对浅层的稠密网络,通过压缩稠密网络的深度并增加每个模块中卷积核的数量来高效提取表情图像的隐性特征。考虑到该稠密网络在提取特征时也舍弃了部分图像信息以及单一特征可能难以表达人脸表情图像的全部信息,利用LDN(Local Directional Number Pattern,LDN)算法提取表情图像的梯度方向纹理信息,与稠密网络提取的隐式特征进行特征融合,共同进入Softmax层进行表情分类。该算法在CK+和Jaffe数据集上进行仿真实验,获得了不错的识别率,在一定程度上证实了算法的有效性。展开更多
文摘针对SAR图像船舶检测任务在船舶组合和船舶融合场景下低检测精度的问题,提出了一种轻量化船舶检测算法——RGDET-Ship,有效提高了SAR图像在复杂场景下的船舶检测精度。该算法的创新点包括:①构建基于改进ResNet的基础主干网络,增强深浅网络早特征融合,保留更丰富的有效特征图,并利用RegNet进行模型搜索得到一簇最优结构子网络RegNet and Early-Add(RGEA),实现模型的轻量化;②在FPN Neck基础上,结合EA-fusion策略设计出FPN and Early Add Fusion(FEAF)Neck网络,进一步加强深浅特征晚融合,提高中大船舶目标特征的提取;③通过细粒度分析改进RPN网络得到Two-RPN(TRPN)网络,提高模型的检测粒度和预测框准确性;④引入多任务损失函数——Cross Entropy Loss and Smooth L1 Loss(CE_S),包括分类任务和回归任务,进一步提升检测性能。通过在标准基准数据集SSDD上进行大量实验,验证了RGDET-Ship模型的有效性和健壮性。实验结果表明,相较于Faster RCNN和Cascade RCNN,RGDET-Ship在mAP_0.5:0.95上分别提升了5.6%和3.3%,在AR上分别提升了9.8%和7.6%。
文摘由于稠密网络(DenseNet)模型具有独特的特征提取和传输方式,使其面对小数据集时在缓解网络过拟合的同时,可以取得不错的分类效果。但是传统的DenseNet模型具有较深的网络结构,可能造成特征冗余和硬件内存的负担。针对该问题,研究了一种相对浅层的稠密网络,通过压缩稠密网络的深度并增加每个模块中卷积核的数量来高效提取表情图像的隐性特征。考虑到该稠密网络在提取特征时也舍弃了部分图像信息以及单一特征可能难以表达人脸表情图像的全部信息,利用LDN(Local Directional Number Pattern,LDN)算法提取表情图像的梯度方向纹理信息,与稠密网络提取的隐式特征进行特征融合,共同进入Softmax层进行表情分类。该算法在CK+和Jaffe数据集上进行仿真实验,获得了不错的识别率,在一定程度上证实了算法的有效性。
文摘在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆(Bi-directional long short-term memory-attention,BiLSTM-ATT)神经网络进行情感分类。最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优。实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统。