-
题名基于改进YOLOv5的快速水平文本检测算法
- 1
-
-
作者
孙巧榆
张静
刘珍兵
-
机构
江苏海洋大学电子工程学院
-
出处
《江苏海洋大学学报(自然科学版)》
CAS
2024年第1期75-81,共7页
-
基金
江苏海洋大学研究生科研创新项目(DZXS202106)。
-
文摘
基于深度学习的文本检测算法具有强大的特征学习能力和泛化能力,但推理速度通常较慢。针对此问题,提出了基于改进YOLOv5的快速水平文本检测算法T-YOLOv5,通过在SPPF(spatial pyramid pooling-fast)模块中嵌入改进的CAM(channel attention module)提高网络的特征提取能力,并在CIoU(complete IoU)损失中增加形状损失提高损失函数的收敛速度。所提算法在公共数据集ICDAR2013上F值达到86.5,推理速度达112 FPS。实验结果表明,在检测结果和推理速度上,所提算法T-YOLOv5与现有基于深度学习的文本检测算法相比具有一定的竞争力。
-
关键词
文本检测
深度学习
YOLOv5
场景文本
-
Keywords
text detection
deep learning
YOLOv5
scene text
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的场景文本检测方法研究综述
- 2
-
-
作者
张静
孙巧榆
刘珍兵
-
机构
江苏海洋大学电子工程学院
-
出处
《智能计算机与应用》
2024年第2期48-54,共7页
-
文摘
文本检测技术在社会中有着广泛的应用,随着深度学习的加入,文本检测技术得到了进一步的提升。近年来基于深度学习的检测算法逐渐增多,针对场景文本检测的各种问题提出了相应的解决方法,提升了场景文本检测算法的性能。本文对这些算法进行了归纳、分析和总结,将这些算法大致分为基于回归和基于分割两种类型,并对其性能进行了对比,最后基于这些算法的研究内容为文本检测领域未来的发展提出了新的研究方向。
-
关键词
深度学习
文本检测
场景文本
-
Keywords
deep learning
text detection
scene text
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于稀疏可学习proposal的车间工具目标检测
- 3
-
-
作者
刘珍兵
孙巧榆
王述文
夏嘉伟
-
机构
江苏海洋大学电子工程学院
-
出处
《电子测量与仪器学报》
2024年第7期13-21,共9页
-
基金
国家自然科学基金(62271236)项目资助。
-
文摘
针对车间工具不同型号之间尺寸存在较大差异、形状种类繁多等问题,提出了一种基于稀疏可学习proposal的车间工具检测算法。首先,融入稀疏表示和可学习的proposal机制来提升模型的鲁棒性,并减少检测过程中所需的参数量;其次,引入Swin-Transformer结构,旨在增强模型的全局以及细节学习能力,有效地解决传统卷积神经网络在高层语义信息融合方面存在的不足;然后,使用一种改进的多尺度特征融合网络架构,通过有效融合不同尺度的特征,提高了模型对于各种尺度目标的检测能力;最后,将多头注意力和动态卷积结合,在不同特征层之间建立更精确且细致的联系,从而进一步提升了目标检测的准确性;采用了CIoU损失函数,通过综合考虑位置、尺度和形状信息,使得模型对边界框的回归预测更加全面与准确。实验结果显示,本文算法在车间工具目标检测任务上的平均检测精度达到了91%,较当前主流算法至少提升了2.3%以上。同时,单张图片的检测速度大约为53 ms,满足了实时检测的需求,体现了综合性能优越。
-
关键词
工具检测
稀疏可学习
多尺度特征
Swin-Transformer
多头注意力
-
Keywords
tool detection
sparse and learnable
multi-scale features
Swin-Transformer
multi-head attention
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TN9
[电子电信—信息与通信工程]
-