在部分生产线上,钢坯从炉内出炉的过程中,需要依靠人眼判断钢坯是否到达指定位置,到位后再利用推钢机推动炉内的钢坯完成出炉过程。在这个过程中,人眼长时间观察摄像头屏幕容易疲劳,人工劳动强度大成本高,生产工作效率较低。针对以上问...在部分生产线上,钢坯从炉内出炉的过程中,需要依靠人眼判断钢坯是否到达指定位置,到位后再利用推钢机推动炉内的钢坯完成出炉过程。在这个过程中,人眼长时间观察摄像头屏幕容易疲劳,人工劳动强度大成本高,生产工作效率较低。针对以上问题,文中提出利用机器视觉系统替代人类视觉系统进行钢坯位置的实时定位,首先将钢坯定位问题转换为关键点检测问题,然后提出了基于ResNet网络和基于关键点分割网络(Key Point Segmentation Network,KPSN)的两种模型来进行关键点检测,最后,通过测试和分析所提出的两种方法,提出了多方法融合的关键点检测方案,降低了极端情况下误检的风险,实际应用表明,文中所提方法具有较高的鲁棒性,达到了实际应用的要求。展开更多
目的随着深度学习技术的快速发展,规范手写汉字识别(handwritten Chinese character recognition,HCCR)任务已经取得突破性进展,但对非规范书写汉字识别的研究仍处于萌芽阶段。受到书法流派和书写习惯等原因影响,手写汉字常常与打印字...目的随着深度学习技术的快速发展,规范手写汉字识别(handwritten Chinese character recognition,HCCR)任务已经取得突破性进展,但对非规范书写汉字识别的研究仍处于萌芽阶段。受到书法流派和书写习惯等原因影响,手写汉字常常与打印字体差异显著,导致同类别文字的整体结构差异非常大,基于现有数据集训练得到的识别模型,无法准确识别非规范书写的汉字。方法为了推动非规范书写汉字识别的研究工作,本文制做了首套非规范书写的汉字数据集(irregular handwritten Chinese character dataset,IHCCD),目前共包含3755个类别,每个类别有30幅样本。还给出了经典深度学习模型ResNet,CBAM-ResNet,Vision Transformer,Swin Transformer在本文数据集上的基准性能。结果实验结果表明,虽然以上经典网络模型在规范书写的CASIA-HWDB1.1数据集上能够取得良好性能,其中Swin Transformer在CASIA-HWDB1.1数据集上最高精度达到了95.31%,但是利用CASIA-HWDB1.1训练集训练得到的网络模型,在IHCCD测试集上的识别结果较差,最高精度也只能达到30.20%。在加入IHCCD训练集后,所有的经典模型在IHCCD测试集上的识别性能均得到了较大提升,最高精度能达到89.89%,这表明IHCCD数据集对非规范书写汉字识别具有研究意义。结论现有OCR识别模型还存在局限性,本文收集的IHCCD数据集能够有效增强识别模型泛化性能。该数据集下载链接https://pan.baidu.com/s/1PtcfWj3yUSz68o2ZzvPJOQ?pwd=66Y7。展开更多
文摘在部分生产线上,钢坯从炉内出炉的过程中,需要依靠人眼判断钢坯是否到达指定位置,到位后再利用推钢机推动炉内的钢坯完成出炉过程。在这个过程中,人眼长时间观察摄像头屏幕容易疲劳,人工劳动强度大成本高,生产工作效率较低。针对以上问题,文中提出利用机器视觉系统替代人类视觉系统进行钢坯位置的实时定位,首先将钢坯定位问题转换为关键点检测问题,然后提出了基于ResNet网络和基于关键点分割网络(Key Point Segmentation Network,KPSN)的两种模型来进行关键点检测,最后,通过测试和分析所提出的两种方法,提出了多方法融合的关键点检测方案,降低了极端情况下误检的风险,实际应用表明,文中所提方法具有较高的鲁棒性,达到了实际应用的要求。
文摘目的随着深度学习技术的快速发展,规范手写汉字识别(handwritten Chinese character recognition,HCCR)任务已经取得突破性进展,但对非规范书写汉字识别的研究仍处于萌芽阶段。受到书法流派和书写习惯等原因影响,手写汉字常常与打印字体差异显著,导致同类别文字的整体结构差异非常大,基于现有数据集训练得到的识别模型,无法准确识别非规范书写的汉字。方法为了推动非规范书写汉字识别的研究工作,本文制做了首套非规范书写的汉字数据集(irregular handwritten Chinese character dataset,IHCCD),目前共包含3755个类别,每个类别有30幅样本。还给出了经典深度学习模型ResNet,CBAM-ResNet,Vision Transformer,Swin Transformer在本文数据集上的基准性能。结果实验结果表明,虽然以上经典网络模型在规范书写的CASIA-HWDB1.1数据集上能够取得良好性能,其中Swin Transformer在CASIA-HWDB1.1数据集上最高精度达到了95.31%,但是利用CASIA-HWDB1.1训练集训练得到的网络模型,在IHCCD测试集上的识别结果较差,最高精度也只能达到30.20%。在加入IHCCD训练集后,所有的经典模型在IHCCD测试集上的识别性能均得到了较大提升,最高精度能达到89.89%,这表明IHCCD数据集对非规范书写汉字识别具有研究意义。结论现有OCR识别模型还存在局限性,本文收集的IHCCD数据集能够有效增强识别模型泛化性能。该数据集下载链接https://pan.baidu.com/s/1PtcfWj3yUSz68o2ZzvPJOQ?pwd=66Y7。