无人机高空航拍图像中车辆像素占比极低,目标可视化信息较少,在目标检测任务中容易漏检和误检。因此,本文提出一种基于改进YOLOX(You Only Look Once X)的无人机高空航拍视角下小尺度车辆精确检测方法。首先,为增强网络对低级特征的提...无人机高空航拍图像中车辆像素占比极低,目标可视化信息较少,在目标检测任务中容易漏检和误检。因此,本文提出一种基于改进YOLOX(You Only Look Once X)的无人机高空航拍视角下小尺度车辆精确检测方法。首先,为增强网络对低级特征的提取能力,在原始YOLOX预测头部增加一个160 pixel×160 pixel的浅层特征提取网络;其次,在骨干网络后端嵌入基于归一化的注意力机制模块(Normalization-based Attention Module,NAM),以抑制冗余的非显著特征表达;最后,为了增大小尺度车辆的相对像素比,提升网络捕捉有效特征信息的能力,提出一种基于滑动窗口的图像切分检测方法。试验结果表明,改进YOLOX网络表现出良好的检测效能,检测精度达到了84.58%,优于典型的目标检测网络Faster R-CNN(79.95%)、YOLOv3(83.69%)、YOLOv5(84.31%)及YOLOX(83.10%)。此外,改进YOLOX能够有效解决无人机高空航拍图像中小尺度车辆的漏检和误检问题,且预测框更贴合车辆的实际轮廓;同时,在不同航拍高度的目标检测任务中具有较高的鲁棒性。展开更多
针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方...针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。展开更多
文摘无人机高空航拍图像中车辆像素占比极低,目标可视化信息较少,在目标检测任务中容易漏检和误检。因此,本文提出一种基于改进YOLOX(You Only Look Once X)的无人机高空航拍视角下小尺度车辆精确检测方法。首先,为增强网络对低级特征的提取能力,在原始YOLOX预测头部增加一个160 pixel×160 pixel的浅层特征提取网络;其次,在骨干网络后端嵌入基于归一化的注意力机制模块(Normalization-based Attention Module,NAM),以抑制冗余的非显著特征表达;最后,为了增大小尺度车辆的相对像素比,提升网络捕捉有效特征信息的能力,提出一种基于滑动窗口的图像切分检测方法。试验结果表明,改进YOLOX网络表现出良好的检测效能,检测精度达到了84.58%,优于典型的目标检测网络Faster R-CNN(79.95%)、YOLOv3(83.69%)、YOLOv5(84.31%)及YOLOX(83.10%)。此外,改进YOLOX能够有效解决无人机高空航拍图像中小尺度车辆的漏检和误检问题,且预测框更贴合车辆的实际轮廓;同时,在不同航拍高度的目标检测任务中具有较高的鲁棒性。
文摘针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。