期刊文献+
共找到128篇文章
< 1 2 7 >
每页显示 20 50 100
Multi-Scale Mixed Attention Tea Shoot Instance Segmentation Model
1
作者 Dongmei Chen Peipei Cao +5 位作者 Lijie Yan Huidong Chen Jia Lin Xin Li Lin Yuan Kaihua Wu 《Phyton-International Journal of Experimental Botany》 SCIE 2024年第2期261-275,共15页
Tea leaf picking is a crucial stage in tea production that directly influences the quality and value of the tea.Traditional tea-picking machines may compromise the quality of the tea leaves.High-quality teas are often... Tea leaf picking is a crucial stage in tea production that directly influences the quality and value of the tea.Traditional tea-picking machines may compromise the quality of the tea leaves.High-quality teas are often handpicked and need more delicate operations in intelligent picking machines.Compared with traditional image processing techniques,deep learning models have stronger feature extraction capabilities,and better generalization and are more suitable for practical tea shoot harvesting.However,current research mostly focuses on shoot detection and cannot directly accomplish end-to-end shoot segmentation tasks.We propose a tea shoot instance segmentation model based on multi-scale mixed attention(Mask2FusionNet)using a dataset from the tea garden in Hangzhou.We further analyzed the characteristics of the tea shoot dataset,where the proportion of small to medium-sized targets is 89.9%.Our algorithm is compared with several mainstream object segmentation algorithms,and the results demonstrate that our model achieves an accuracy of 82%in recognizing the tea shoots,showing a better performance compared to other models.Through ablation experiments,we found that ResNet50,PointRend strategy,and the Feature Pyramid Network(FPN)architecture can improve performance by 1.6%,1.4%,and 2.4%,respectively.These experiments demonstrated that our proposed multi-scale and point selection strategy optimizes the feature extraction capability for overlapping small targets.The results indicate that the proposed Mask2FusionNet model can perform the shoot segmentation in unstructured environments,realizing the individual distinction of tea shoots,and complete extraction of the shoot edge contours with a segmentation accuracy of 82.0%.The research results can provide algorithmic support for the segmentation and intelligent harvesting of premium tea shoots at different scales. 展开更多
关键词 Tea shoots attention mechanism multi-scale feature extraction instance segmentation deep learning
下载PDF
YOLO-MFD:Remote Sensing Image Object Detection with Multi-Scale Fusion Dynamic Head
2
作者 Zhongyuan Zhang Wenqiu Zhu 《Computers, Materials & Continua》 SCIE EI 2024年第5期2547-2563,共17页
Remote sensing imagery,due to its high altitude,presents inherent challenges characterized by multiple scales,limited target areas,and intricate backgrounds.These inherent traits often lead to increased miss and false... Remote sensing imagery,due to its high altitude,presents inherent challenges characterized by multiple scales,limited target areas,and intricate backgrounds.These inherent traits often lead to increased miss and false detection rates when applying object recognition algorithms tailored for remote sensing imagery.Additionally,these complexities contribute to inaccuracies in target localization and hinder precise target categorization.This paper addresses these challenges by proposing a solution:The YOLO-MFD model(YOLO-MFD:Remote Sensing Image Object Detection withMulti-scale Fusion Dynamic Head).Before presenting our method,we delve into the prevalent issues faced in remote sensing imagery analysis.Specifically,we emphasize the struggles of existing object recognition algorithms in comprehensively capturing critical image features amidst varying scales and complex backgrounds.To resolve these issues,we introduce a novel approach.First,we propose the implementation of a lightweight multi-scale module called CEF.This module significantly improves the model’s ability to comprehensively capture important image features by merging multi-scale feature information.It effectively addresses the issues of missed detection and mistaken alarms that are common in remote sensing imagery.Second,an additional layer of small target detection heads is added,and a residual link is established with the higher-level feature extraction module in the backbone section.This allows the model to incorporate shallower information,significantly improving the accuracy of target localization in remotely sensed images.Finally,a dynamic head attentionmechanism is introduced.This allows themodel to exhibit greater flexibility and accuracy in recognizing shapes and targets of different sizes.Consequently,the precision of object detection is significantly improved.The trial results show that the YOLO-MFD model shows improvements of 6.3%,3.5%,and 2.5%over the original YOLOv8 model in Precision,map@0.5 and map@0.5:0.95,separately.These results illustrate the clear advantages of the method. 展开更多
关键词 Object detection YOLOv8 multi-scale attention mechanism dynamic detection head
下载PDF
基于改进卷积注意力机制的触觉图像识别 被引量:5
3
作者 熊鹏文 陈志远 +1 位作者 廖俊杰 宋爱国 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期175-182,共8页
为了改善传统轻量化网络对触觉图像全局特征提取能力差的问题,提出一种基于轻量化网络提高触觉图像感知分类的新算法,通过将卷积块注意力模块(CBAM)引入坐标注意力机制(CA)来增强特征信息表达能力.利用CA采取空间全局信息并嵌入通道注意... 为了改善传统轻量化网络对触觉图像全局特征提取能力差的问题,提出一种基于轻量化网络提高触觉图像感知分类的新算法,通过将卷积块注意力模块(CBAM)引入坐标注意力机制(CA)来增强特征信息表达能力.利用CA采取空间全局信息并嵌入通道注意中,使卷积网络能够在较全面的区域捕获注意力权重.结果表明:所提算法优于现有轻量化网络算法;该算法对GelSight数据集、多模态传感器数据集2种触觉图像进行分类识别测试,在分类表现中分辨正确率分别达到了88.2%和94.4%;相比于传统的CBAM注意力模型、自注意力模型(SENet)和仅有LeNet的神经网络,该算法对触觉图像的识别能力在GelSight数据集上分别提高了8.7%、8.7%和3.0%,在多模态传感器数据集上分别提高了13.3%、13.4%和4.8%. 展开更多
关键词 触觉图像 轻量化 注意力机制 坐标注意力
下载PDF
基于改进YOLO v5的复杂环境下桑树枝干识别定位方法 被引量:1
4
作者 李丽 卢世博 +2 位作者 任浩 徐刚 周永忠 《农业机械学报》 EI CAS CSCD 北大核心 2024年第2期249-257,共9页
为实现复杂自然环境下对桑树嫩叶处枝干的识别检测,改变当前桑叶采摘设备作业过程中依赖人工辅助定位的现状,解决识别目标姿态多样和环境复杂导致的低识别率问题,提出一种基于改进YOLO v5模型的桑树枝干识别模型(YOLO v5-mulberry),并... 为实现复杂自然环境下对桑树嫩叶处枝干的识别检测,改变当前桑叶采摘设备作业过程中依赖人工辅助定位的现状,解决识别目标姿态多样和环境复杂导致的低识别率问题,提出一种基于改进YOLO v5模型的桑树枝干识别模型(YOLO v5-mulberry),并结合深度相机构建定位系统。首先,在YOLO v5的骨干网络中加入CBAM(Convolutional block attention module)注意力机制,提高神经网络对桑树枝干的关注度;并增加小目标层使模型可检测4像素×4像素的目标,提高了模型检测小目标的性能;同时使用GIoU损失函数替换原始网络中的IoU损失函数,有效防止了预测框和真实框尺寸较小时无法正确反映预测框及真实框之间位置关系的情况;随后,完成深度图和彩色图的像素对齐,通过坐标系转换获取桑树枝干三维坐标。试验结果表明:YOLO v5-mulberry检测模型的平均精度均值为94.2%,较原模型提高16.9个百分点,置信度也提高12.1%;模型室外检测时应检测目标数53,实际检测目标数为48,检测率为90.57%;桑树嫩叶处枝干三维坐标识别定位系统的定位误差为(9.4985 mm,11.285 mm,19.11 mm),满足使用要求。该研究可实现桑树嫩叶处枝干的识别与定位,有助于推动桑叶智能化采摘机器人研究。 展开更多
关键词 桑叶采摘 枝干识别定位 YOLO v5 目标检测 注意力机制 坐标转换
下载PDF
改进的YOLOv5s遥感影像机场场面飞机小目标识别 被引量:1
5
作者 张新君 赵春霖 《电光与控制》 CSCD 北大核心 2024年第7期104-111,共8页
遥感影像具有地物拍摄模糊以及背景环境复杂等特点,导致大面积地面物体识别准确率较低。针对此问题,提出了一种基于YOLOv5s改进网络模型。该模型对YOLOv5s中的骨干提取网络和颈部多尺度特征融合网络进行优化,引入Swin Transformer以获... 遥感影像具有地物拍摄模糊以及背景环境复杂等特点,导致大面积地面物体识别准确率较低。针对此问题,提出了一种基于YOLOv5s改进网络模型。该模型对YOLOv5s中的骨干提取网络和颈部多尺度特征融合网络进行优化,引入Swin Transformer以获得更多关于目标物体的特征信息;同时对骨干网络中的模块做了修剪;此外,模型中还添加了坐标注意力机制来提升特征提取和融合效果。对于遥感数据集进行了小目标检测识别测试实验,改进后的YOLOv5s网络的mAP值为0.8375,比YOLOv5s网络模型提高了0.0225。实验结果表明,改进后的YOLOv5s网络模型对比YOLO系列网络和EfficientDet模型有效地提高了识别准确率、召回率以及mAP值,并且在训练时间上也比YOLOv5s减少了1/12。 展开更多
关键词 遥感影像 YOLOv5s Swin Transformer 坐标注意力机制 小目标检测
下载PDF
基于改进MobileNet V3的矿物智能识别模型
6
作者 宛鹤 张金艳 +4 位作者 屈娟萍 张崇辉 薛季玮 王森 卜显忠 《金属矿山》 CAS 北大核心 2024年第1期174-181,共8页
针对当前矿物识别领域存在的精度不佳、适应性差、携带不便等问题,提出了一种基于改进MobileNet V3的矿物智能识别模型(CA-MobileNet V3)。为获得研究所需的有效数据集,通过由mindat. org网站和自行拍摄方式获取的矿物图像创建了一个包... 针对当前矿物识别领域存在的精度不佳、适应性差、携带不便等问题,提出了一种基于改进MobileNet V3的矿物智能识别模型(CA-MobileNet V3)。为获得研究所需的有效数据集,通过由mindat. org网站和自行拍摄方式获取的矿物图像创建了一个包含19种矿物的数据集,对其进行数据增强处理,并按照8:1:1的比例划分为训练集、验证集和测试集。为提升模型对图像信息的特征提取能力,引入协调注意力机制,用以替代轻量型MobileNet V3模型的原始SE注意力机制,以提高矿物识别准确率。最后,采用迁移学习方法预训练CA-MobileNet V3模型,以加速模型收敛、提高泛化能力、避免过拟合。在训练过程中,将CA-MobileNet V3与mobilenet v3、MobileNet V3、ShuffleNet V2、Efficient Net V2等模型进行了性能比较。结果表明:各迁移模型均展现出显著的收敛速度优势,而CA-MobileNet V3矿物智能识别模型的Top1-准确率、Top2-准确率、f_1-score值分别达到93.90%、98.58%和93.89%,在所有模型中效果最佳,且模型大小仅为4.61 MB,属于轻量化模型。为验证模型有效性,t-SNE可视化分析被用于不同模型的识别效果比较,进一步印证了CA-MobileNet V3模型的优越性。 展开更多
关键词 矿物分类 迁移学习 轻量化模型 协调注意力机制 t-SNE
下载PDF
改进YOLOv7的城市小型无人机目标检测方法
7
作者 崔勇强 李嘉轩 +3 位作者 侯林果 梅涛 白迪 陈少平 《计算机工程与应用》 CSCD 北大核心 2024年第10期237-245,共9页
针对“低小动”无人机的反制技术已成为低空空域安全防御的重要手段,然而实时检测与准确识别是实施有效反制的前提条件与关键基础。针对城市低空环境下,目标检测算法对不同背景下小尺度无人机目标检测精度低,容易出现漏检误检且易受外... 针对“低小动”无人机的反制技术已成为低空空域安全防御的重要手段,然而实时检测与准确识别是实施有效反制的前提条件与关键基础。针对城市低空环境下,目标检测算法对不同背景下小尺度无人机目标检测精度低,容易出现漏检误检且易受外界因素干扰等问题,提出了一种基于改进YOLOv7的“低小动”无人机目标检测方法。首先采集大量不同环境、不同背景下的无人机样本构建数据集,并采用ViBe(visual background extractor)算法进行预处理;其次引入坐标注意力机制与SPDConv(space-to-depth convolution)模块改进和优化YOLOv7的网络结构;最后提出融合ViBe和改进YOLOv7的二级检测架构,将改进后的YOLOv7作为网络模型检测经ViBe处理后的图像。依据原图与处理图像的位置大小关系,将检测出的目标坐标映射回归至原图片,从而完成目标检测提取。实验结果表明,所提目标检测方法检测精度达96.5%,较原YOLOv7方法提高了15.8个百分点,显著提升了“低小动”目标的检测精度,能够满足低空无人机的实时精准检测的需求。 展开更多
关键词 ViBe算法 反无人机 YOLOv7 坐标注意力机制 小目标检测 SPDConv
下载PDF
基于Contextual Transformer的自动驾驶单目3D目标检测
8
作者 厍向阳 颜唯佳 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第19期178-189,共12页
针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构... 针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构以提取特征。设计多尺度空间感知模块(MSP),通过尺度空间响应操作改善浅层特征的丢失情况,嵌入沿水平和竖直两个空间方向的坐标注意力机制(CA),使用softmax函数生成各尺度的重要性软权重。在偏移损失中采用Huber损失函数代替L1损失函数。实验结果表明:在KITTI自动驾驶数据集上,相较于RTM3D算法,该算法在简单、中等、困难三个难度级别下,AP3D分别提升了4.84、3.82、5.36个百分点,APBEV分别提升了4.75、6.26、3.56个百分点。 展开更多
关键词 自动驾驶 单目3D目标检测 Contextual Transformer 多尺度感知 坐标注意力机制
下载PDF
基于SCC-YOLO的指针式仪表轻量化检测方法
9
作者 任志玲 曹正言 任立然 《仪表技术与传感器》 CSCD 北大核心 2024年第9期39-47,52,共10页
针对指针式仪表检测模型结构复杂、占用内存量高、参数计算量大而导致的不易部署问题,提出一种基于YOLOv5的轻量化仪表目标检测网络SCC-YOLO。采用轻量化主干ShuffleBlock_lite结构重新设计网络主干,引入卷积核重构的深度可分离卷积,通... 针对指针式仪表检测模型结构复杂、占用内存量高、参数计算量大而导致的不易部署问题,提出一种基于YOLOv5的轻量化仪表目标检测网络SCC-YOLO。采用轻量化主干ShuffleBlock_lite结构重新设计网络主干,引入卷积核重构的深度可分离卷积,通过SimAM无参注意力机制模块进一步提升特征提取能力。融合坐标卷积CoordConv与CARAFE轻量化上采样模块提高模型特征融合性能。利用数据增强技术构建真实场景下和复杂场景下的指针式仪表图像数据集。对比实验结果表明:SCC-YOLO模型能大幅提升指针式仪表的检测效率,模型的参数量平均降低27.3%,计算量平均降低54.8%,精度上综合提升1.3%。轻量化的设计使其能够在移动端与边缘设备更容易部署,能够满足真实场景下的指针式仪表检测任务要求。 展开更多
关键词 指针式仪表 轻量化 YOLOv5 无参注意力机制 坐标卷积 数据增强
下载PDF
基于MobileNetV2的岩石薄片岩性识别
10
作者 王婷婷 黄志贤 +2 位作者 王洪涛 杨明昊 赵万春 《吉林大学学报(地球科学版)》 CAS CSCD 北大核心 2024年第4期1432-1442,共11页
岩石薄片的岩性识别是地质分析中不可或缺的一环,其精准度直接影响后续地层岩石种类、性质和矿物成分等信息的确定,对于地质勘探和矿产开采具有重要意义。为了快速准确地识别岩性,本文提出了一种改进的MobileNetV2轻量化模型,通过选取5... 岩石薄片的岩性识别是地质分析中不可或缺的一环,其精准度直接影响后续地层岩石种类、性质和矿物成分等信息的确定,对于地质勘探和矿产开采具有重要意义。为了快速准确地识别岩性,本文提出了一种改进的MobileNetV2轻量化模型,通过选取5种岩石类型共3 700张岩石薄片图像进行岩性识别。在MobileNetV2的倒残差结构中嵌入坐标注意力机制,融合图像中多种矿物的全局特征信息。此外,改进MobileNetV2中的分类器,降低模型的参数量和计算复杂度,从而提高模型的运算速度和效率,并采用带泄露线性整流函数(leaky rectified linear unit, Leaky ReLU)作为激活函数,避免网络训练中的梯度消失问题。实验结果表明,本文提出的改进后的MobileNetV2模型大小仅为2.30 MB,在测试集上的精确率、召回率、F_(1)值分别为91.24%、90.18%、90.70%,具有较高的准确性,相比于SqueezeNet、ShuffleNetV2等同类型的轻量化网络,分类效果最好。 展开更多
关键词 岩石薄片图像 轻量化神经网络 MobileNetV2 坐标注意力机制 岩性识别
下载PDF
物理指标与深度学习融合的冲击地压风险等级预测
11
作者 乔美英 史有强 《中国安全生产科学技术》 CAS CSCD 北大核心 2024年第4期56-63,共8页
为探究煤矿智能化开采背景下,冲击地压的预警问题。以数据分析为基础,以河南某矿21181工作面为背景,提出物理指标与深度学习融合的冲击地压预警方法。该方法通过分析大能量事件发生之前,各项物理指标在最大值、趋势性以及相对变化率绝对... 为探究煤矿智能化开采背景下,冲击地压的预警问题。以数据分析为基础,以河南某矿21181工作面为背景,提出物理指标与深度学习融合的冲击地压预警方法。该方法通过分析大能量事件发生之前,各项物理指标在最大值、趋势性以及相对变化率绝对值3方面特性,得到与之对应的综合物理特征,并分析震源的空间分布特性,根据其特性提出坐标注意力机制,对震源坐标进行加权,得到震源特征。对综合物理特征以及震源特征,加入通道注意力机制对特征进行加权,并使用全连接层进行分类,达到风险等级预测的目的,最终将模型运用于实际工程。研究结果表明:物理指标与深度学习融合的冲击地压预警方法可以达到较高的准确率。研究结果可为实际工程提供一定借鉴。 展开更多
关键词 冲击地压 物理指标 数据分析 震源特征 深度学习 坐标注意力机制
下载PDF
深度学习的红外热成像电路板元器件识别研究
12
作者 张林鍹 郑兴 +3 位作者 陈飞 李名洪 邱朝洁 常乾坤 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第4期560-567,共8页
针对现有YOLO目标检测算法在自建数据集漏检率高、图像受复杂环境影响造成检测准确率低等问题,提出一种基于YOLO v5改进的红外图像识别算法。根据红外数据图片的独特性质,重新设计主干网络部分,引入全维动态卷积(OMNI-Dimensional Dynam... 针对现有YOLO目标检测算法在自建数据集漏检率高、图像受复杂环境影响造成检测准确率低等问题,提出一种基于YOLO v5改进的红外图像识别算法。根据红外数据图片的独特性质,重新设计主干网络部分,引入全维动态卷积(OMNI-Dimensional Dynamic Convolution, ODConv)模块和改进坐标注意力(Coordinate Attention, CA)机制,提高模型对小目标的检测精确度并减少参数量;其次,引入解耦头(Decoupled Head, DH)模块,提高模型训练的收敛速度;最后,加入GSConv(Graph-Shifted Convolution) Slim模块,以降低模型的复杂度,提高预测速度。实验结果表明:改进后的算法模型漏检率降低40.22%,每秒浮点运算次数(Floating-point Operations Per Second, FLOPs)提升了25%,平均准确率提升了28.32%。 展开更多
关键词 红外热成像 YOLO v5 全维动态卷积 改进解耦头 改进坐标注意力机制 GSConv Slim模块
下载PDF
基于协调注意力机制的轻量级YOLOv4零件检测
13
作者 朱文博 陈龙飞 余琦 《计算机技术与发展》 2024年第8期23-29,共7页
针对零件自动检测任务在复杂工况下,如零件堆叠粘连、有杂物干扰等,存在实时性差、硬件资源占用大等问题,提出一种基于轻量级YOLOv4网络的零件检测方法。采用MobileNeXt代替CSPDarkNet53作为主干特征提取网络(backbone),并在每个卷积模... 针对零件自动检测任务在复杂工况下,如零件堆叠粘连、有杂物干扰等,存在实时性差、硬件资源占用大等问题,提出一种基于轻量级YOLOv4网络的零件检测方法。采用MobileNeXt代替CSPDarkNet53作为主干特征提取网络(backbone),并在每个卷积模块中添加协调注意力机制,用于增强特征层的语义表达能力;提出一种Fused-Sandglass模块插入到浅层的backbone中,提高网络的推理速度;网络训练方面引入渐进式训练方法和focal loss损失函数,提升训练速度,并且有效缓解正负样本失衡的问题。实验结果表明,该方法在15种零件的检测任务中能够保持和YOLOv4网络相近的准确率,但参数量大小仅为其20%,推理速度达到了43.7 fps,能够满足实际生产的需求。 展开更多
关键词 深度学习 协调注意力机制 零件检测 YOLOv4网络 MobileNeXt网络
下载PDF
基于改进YOLOv7的安全帽佩戴检测算法
14
作者 周孟然 王皓 《软件》 2024年第8期14-17,共4页
为提高作业场所中安全帽佩戴检测的算法精度,本文提出一种基于YOLOv7网络架构进行改进的优化算法。该算法以YOLOv7为基准模型,在其网络的ELAN结构和SPPCSPC结构中引入一种无参数的注意力机制SimAM,取代其原有部分的卷积模块CBS,以增强... 为提高作业场所中安全帽佩戴检测的算法精度,本文提出一种基于YOLOv7网络架构进行改进的优化算法。该算法以YOLOv7为基准模型,在其网络的ELAN结构和SPPCSPC结构中引入一种无参数的注意力机制SimAM,取代其原有部分的卷积模块CBS,以增强检测网络的特征提取能力,提升模型对图像中目标和背景的区分能力。在检测头的卷积中引入坐标卷积模块,使得卷积能够感知空间信息,改善目标定位精度低的问题。将YOLOv7中原生的损失函数替换为WIoU损失函数,使算法专注于困难样本,提升其分类性能。在数据集上对改进模型进行验证,实验结果表明,改进后模型平均精度为84.7%,相较于原YOLOv7模型提升了5.7个百分点。通过一系列对比实验证明了改进算法的有效性,相较于主流模型具有一定优势,对后续的研究和应用具有参考价值。 展开更多
关键词 安全帽佩戴检测 YOLOv7 注意力机制 坐标卷积
下载PDF
融合坐标与多头注意力机制的交互语音情感识别 被引量:1
15
作者 高鹏淇 黄鹤鸣 樊永红 《计算机应用》 CSCD 北大核心 2024年第8期2400-2406,共7页
语音情感识别(SER)是人机交互系统中一项重要且充满挑战性的任务。针对目前SER系统中存在特征单一和特征间交互性较弱的问题,提出多输入交互注意力网络MIAN。该网络由特定特征坐标残差注意力网络和共享特征多头注意力网络两个子网络组... 语音情感识别(SER)是人机交互系统中一项重要且充满挑战性的任务。针对目前SER系统中存在特征单一和特征间交互性较弱的问题,提出多输入交互注意力网络MIAN。该网络由特定特征坐标残差注意力网络和共享特征多头注意力网络两个子网络组成。前者利用Res2Net和坐标注意力模块学习从原始语音中获取的特定特征,并生成多尺度特征表示,增强模型对情感相关信息的表征能力;后者融合前向网络所获取的特征,组成共享特征,并经双向长短时记忆(BiLSTM)网络输入至多头注意力模块,能同时关注不同特征子空间中的相关信息,增强特征之间的交互性,以捕获判别性强的特征。通过2个子网络间的协同作用,能增加模型特征的多样性,增强特征之间的交互能力。在训练过程中,应用双损失函数共同监督,使同类样本更紧凑、不同类样本更分离。实验结果表明,MIAN在EMO-DB和IEMOCAP语料库上分别取得了91.43%和76.33%的加权平均精度,相较于其他主流模型,具有更好的分类性能。 展开更多
关键词 语音情感识别 坐标注意力机制 多头注意力机制 特定特征学习 共享特征学习
下载PDF
面向无人机航拍图像小目标检测方法 被引量:2
16
作者 吴海斌 张亚 胡鹏 《安徽工业大学学报(自然科学版)》 CAS 2024年第1期65-73,共9页
针对航拍图像目标检测中小目标特征模糊问题,提出一种改进YOLO_v5x的目标检测算法。通过在YOLO_v5x的主干和颈部网络中添加空间到深度(space-to-depth,SPD)模块来减少细粒度信息丢失;在检测输出端添加1个小目标预测头,提高算法学习低分... 针对航拍图像目标检测中小目标特征模糊问题,提出一种改进YOLO_v5x的目标检测算法。通过在YOLO_v5x的主干和颈部网络中添加空间到深度(space-to-depth,SPD)模块来减少细粒度信息丢失;在检测输出端添加1个小目标预测头,提高算法学习低分辨率特征的效率;引入协调注意力(coordinate attention,CA)机制,将横向和纵向的位置信息编码到通道注意中,增强网络对不同维度特征的提取能力;在完整交并比(complete-intersection over union,CIOU)损失函数的基础上引入Alpha交并比(α-IOU)损失函数,获得更准确的边界框回归,实现图像中目标更精确的定位。通过在Visdrone数据集上对改进YOLO_v5x算法进行训练和对比实验,结果表明:相比于原YOLO_v5x,改进目标检测算法的平均检测精度提升了7.8%,小目标检测的平均精度达23.9%,能够有效识别无人机航拍图中的小目标;相比于RetinaNet、YOLOX-S、Grid-RCNN等目标检测算法,改进目标检测算法的小目标检测平均精度最高,在当前主流检测小目标算法中达到先进水平。 展开更多
关键词 无人机 目标检测 航拍图像 注意力机制
下载PDF
引入轻量级Transformer的自适应窗口立体匹配算法
17
作者 王正家 胡飞飞 +2 位作者 张成娟 雷卓 何涛 《计算机工程》 CAS CSCD 北大核心 2024年第2期256-265,共10页
现有端到端的立体匹配算法为了减轻显存消耗和计算量而预设固定视差范围,在匹配精度和运行效率上难以平衡。提出一种基于轻量化Transformer的自适应窗口立体匹配算法。利用具有线性复杂度的坐标注意力层对低分辨率特征图进行位置编码,... 现有端到端的立体匹配算法为了减轻显存消耗和计算量而预设固定视差范围,在匹配精度和运行效率上难以平衡。提出一种基于轻量化Transformer的自适应窗口立体匹配算法。利用具有线性复杂度的坐标注意力层对低分辨率特征图进行位置编码,减轻计算量并增强相似特征的辨别力;设计轻量化Transformer特征描述模块,转换上下文相关的特征,并引入可分离多头自注意力层对Transformer进行轻量化改进,降低Transformer的延迟性;用可微匹配层对特征进行匹配,设计自适应窗口匹配细化模块进行亚像素级的匹配细化,在提高匹配精度的同时减少显存消耗;经视差回归后生成无视差范围的视差图。在KITTI2015、KITTI2012和SceneFlow数据集上的对比实验表明,该算法比基于标准Transformer的STTR在匹配效率上快了近4.7倍,具有更快的运行速度和更友好的存储性能;比基于3D卷积的PSMNet误匹配率降低了18%,运行时间快了5倍,实现了更好的速度和精度的平衡。 展开更多
关键词 立体匹配 TRANSFORMER 自适应窗口 可分离自注意力机制 坐标注意力
下载PDF
基于坐标注意力关系网络的小样本轴承故障诊断
18
作者 郭敏 陈鹏 +2 位作者 周超 胡国宾 范青荣 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期332-340,共9页
轴承故障诊断对保障机械设备正常运转具有重要价值,基于机器学习的轴承故障诊断是其中一类常用方法,主要包括Alexnet、Resnet-18、关系网络、基于通道注意力SENet的关系网络(SERN)以及基于混合注意力CBAM的关系网络(CBRN)等.在实际应用... 轴承故障诊断对保障机械设备正常运转具有重要价值,基于机器学习的轴承故障诊断是其中一类常用方法,主要包括Alexnet、Resnet-18、关系网络、基于通道注意力SENet的关系网络(SERN)以及基于混合注意力CBAM的关系网络(CBRN)等.在实际应用中,小样本、变工况等可能导致这些方法出现泛化性能差、精度降低及过拟合等问题.本文提出了一种基于坐标注意力关系网络的小样本轴承故障诊断方法 .在该方法中,坐标注意力关系网络通过坐标信息的嵌入和坐标注意力的生成来解决关系网络模型无法建立特征图的长距离依赖关系及故障的特征位置信息难以获得的问题,增强模型在目标区域对故障特征的表达,进而重构出更具判别性的故障样本特征.该方法还采用特征嵌入模块来生成样本的特征向量,并通过对已标记样本和未标记样本的特征向量的拼接来生成特征向量组.最后,该方法利用关系得分模块对特征向量组进行非线性距离度量和生成关系得分,判断未标记样本的类别、实现故障分类.模拟实验表明,相比已有方法,该方法具有更好的分类能力. 展开更多
关键词 小样本学习 关系网络 故障诊断 坐标注意力机制 轴承
下载PDF
基于改进薄板样条运动模型的人脸动画算法
19
作者 杨硕 王一丁 《计算机工程》 CAS CSCD 北大核心 2024年第6期255-265,共11页
面部动画在电影、游戏、虚拟现实等领域起着关键作用,对于实现逼真、生动的人脸动画和情感传达至关重要。当面临面部形状、姿态、表情等多个变化因素时,虽然通过薄板样条非线性变换可以获得较好的运动估计结果,但在处理面部复杂纹理和... 面部动画在电影、游戏、虚拟现实等领域起着关键作用,对于实现逼真、生动的人脸动画和情感传达至关重要。当面临面部形状、姿态、表情等多个变化因素时,虽然通过薄板样条非线性变换可以获得较好的运动估计结果,但在处理面部复杂纹理和嘴部运动时存在运动估计不精细的问题,需要更强大的图像修复能力。因此,提出一种基于改进薄板样条运动模型(TPSMM)的人脸动画算法。首先,在TPSMM的基础上引入一种Farneback光流金字塔算法,通过与薄板样条变换和背景仿射变换相结合,使得人脸局部运动估计更精准;其次,为了更真实地恢复缺失区域的细节纹理信息,提出一种多尺度细节感知网络,该网络在编码器中通过嵌入通道注意力(ECA)模块减少源图像因多层下采样而导致的人脸细节信息丢失,在解码器中利用坐标注意力(CA)模块来有效捕获运动估计特征图中不同位置的重要特征,提高人脸图像的生成质量。实验结果表明,相比一阶段运动模型(FOMM)、关节动画的运动表示法(MRAA)、TPSMM等,该算法在MUG、UvA-Nemo和Oulu-CASIA数据集上的L1、平均关键点距离(AKD)、平均欧氏距离(AED)数值均达到最优,平均分别为0.0129、0.923、0.00099。 展开更多
关键词 面部动画 光流估计 薄板样条 多尺度特征融合 通道注意力机制 坐标注意力机制
下载PDF
改进YOLOv5-S的交通标志检测算法 被引量:3
20
作者 刘海斌 张友兵 +2 位作者 周奎 张宇丰 吕圣 《计算机工程与应用》 CSCD 北大核心 2024年第5期200-209,共10页
在自动驾驶领域,现有的交通标志检测方法在检测复杂背景中的标志时存在着漏检或误检的问题,降低了智能汽车的可靠性。对此,提出了一种改进YOLOv5-S的实时交通标志检测算法。在特征提取网络中融合坐标注意力机制,通过构建目标的长范围依... 在自动驾驶领域,现有的交通标志检测方法在检测复杂背景中的标志时存在着漏检或误检的问题,降低了智能汽车的可靠性。对此,提出了一种改进YOLOv5-S的实时交通标志检测算法。在特征提取网络中融合坐标注意力机制,通过构建目标的长范围依赖来捕获物体的位置感知,使得算法聚焦于重点的特征区域;引入Focal-EIoU损失函数来取代CIoU,使其更关注高质量的分类样本,提高对难分类样本的学习能力,减少漏检或者误检的问题;在网络中融合轻量级卷积技术GSConv,降低模型的计算量。增加新的小目标检测层,通过更丰富的特征信息提高小尺寸标志的检测效果。实验结果表明,改进方法的mAP@0.5和mAP@0.5:0.95分别为88.1%和68.5%,检测速度达到了83 FPS,能够满足实时可靠的检测需求。 展开更多
关键词 交通标志检测 YOLOv5 坐标注意机制 Focal-EIoU GSConv
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部