期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于像素聚合的自然场景文本检测模型
1
作者 张华东 钟羽中 +1 位作者 涂海燕 佃松宜 《组合机床与自动化加工技术》 北大核心 2024年第11期13-17,23,共6页
针对自然场景文本检测面临的文本形状差异大、场景复杂干扰多等诸多挑战,提出了一种基于像素聚合的自然场景文本检测模型。首先,设计了上采样和长短跳跃的嵌套巢式连接的特征融合模块,通过融合残差网络ResNet18提取的多尺度、多阶段的特... 针对自然场景文本检测面临的文本形状差异大、场景复杂干扰多等诸多挑战,提出了一种基于像素聚合的自然场景文本检测模型。首先,设计了上采样和长短跳跃的嵌套巢式连接的特征融合模块,通过融合残差网络ResNet18提取的多尺度、多阶段的特征,增强网络特征提取的能力;其次,基于聚类的思想,引入像素聚合约束外围像素与文本中心区域的距离,实现复杂自然场景下的任意形状文本描述;最后,通过轻量级文本检测头实现像素级的字符分割,提高模型的效率。在ICDAR2015、CTW1500以及构建的工业字符数据集上对所提模型进行验证,结果表明该模型能胜任复杂自然环境下的文本检测任务,且在检测精度和检测效率上均优于现有先进文本检测器。 展开更多
关键词 特征融合 像素聚合 文本检测 字符分割
下载PDF
RGB-D图像中的分步超像素聚合和多模态融合目标检测 被引量:13
2
作者 赵轩 郭蔚 刘京 《中国图象图形学报》 CSCD 北大核心 2018年第8期1231-1241,共11页
目的受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响,室内场景下多目标检测容易出现准确性和实时性较低的问题。为解决此类问题,本文基于物体的彩色和深度图像组,提出了分步超像素聚合和多模态信息融合的目标识别检测方法。方... 目的受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响,室内场景下多目标检测容易出现准确性和实时性较低的问题。为解决此类问题,本文基于物体的彩色和深度图像组,提出了分步超像素聚合和多模态信息融合的目标识别检测方法。方法在似物性采样(object proposal)阶段,依据人眼对显著性物体观察时先注意其色彩后判断其空间深度信息的理论,首先对图像进行超像素分割,然后结合颜色信息和深度信息对分割后的像素块分步进行多阈值尺度自适应超像素聚合,得到具有颜色和空间一致性的似物性区域;在物体识别阶段,为实现物体不同信息的充分表达,利用多核学习方法融合所提取的物体颜色、纹理、轮廓、深度多模态特征,将特征融合核输入支持向量机多分类机制中进行学习和分类检测。结果实验在基于华盛顿大学标准RGB-D数据集和真实场景集上将本文方法与当前主流算法进行对比,得出本文方法整体的检测精度较当前主流算法提升4.7%,运行时间有了大幅度提升。其中分步超像素聚合方法在物体定位性能上优于当前主流似物性采样方法,并且在相同召回率下采样窗口数量约为其他算法的1/4;多信息融合在目标识别阶段优于单个特征和简单的颜色、深度特征融合方法。结论结果表明在基于多特征的目标检测过程中本文方法能够有效利用物体彩色和深度信息进行目标定位和识别,对提高物体检测精度和检测效率具有重要作用。 展开更多
关键词 3维目标检测 分步超像素聚合 多模态信息融合 深度图像 似物性采样 机器学习
原文传递
像素聚合和特征增强的任意形状场景文本检测 被引量:6
3
作者 师广琛 巫义锐 《中国图象图形学报》 CSCD 北大核心 2021年第7期1614-1624,共11页
目的获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法该方法使用特征金字塔... 目的获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition)2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1帧/s;在CTW(Curve Text in the Wild)1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3帧/s,远远超出其他方法。结论本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。 展开更多
关键词 目标检测 场景文本检测 神经网络 非局部模块 像素聚合 实时检测 任意形状
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部