针对实际应用场景中如何在大批量图像文件中快速找到中文印刷体文本图像文件进行OCR (Optical Character Recognition)识别的问题,本文在笔画宽度变换算法(SWT)的基础上,设计了针对中文文本固有特点的启发式规则,并将水平投影技术与离...针对实际应用场景中如何在大批量图像文件中快速找到中文印刷体文本图像文件进行OCR (Optical Character Recognition)识别的问题,本文在笔画宽度变换算法(SWT)的基础上,设计了针对中文文本固有特点的启发式规则,并将水平投影技术与离散傅里叶变换相结合,提出了一种适合倾斜角度在–90至90°之间的中文印刷体文本图像文件识别技术.实验结果显示,在1606张测试集图像文件的识别中,本文算法针对文本图像文件整体识别F值(F-Measure)为0.95,平均识别耗时为0.65 s.展开更多
提出了一种新的基于特征串匹配的文件内容动态识别算法,对文件类型可快速有效地识别,此技术可应用于网络信息流动的监控;研究了多种多模式串字符文本匹配算法,并基于Boyer—Moore提出了多特征串匹配算法(multiple features tringma...提出了一种新的基于特征串匹配的文件内容动态识别算法,对文件类型可快速有效地识别,此技术可应用于网络信息流动的监控;研究了多种多模式串字符文本匹配算法,并基于Boyer—Moore提出了多特征串匹配算法(multiple features tringmatching algorithm,MFSM),以加速大量特征串匹配运算,与传统的“暴力”算法相比,MFSM在匹配速度上要快一倍以上。展开更多
文摘针对实际应用场景中如何在大批量图像文件中快速找到中文印刷体文本图像文件进行OCR (Optical Character Recognition)识别的问题,本文在笔画宽度变换算法(SWT)的基础上,设计了针对中文文本固有特点的启发式规则,并将水平投影技术与离散傅里叶变换相结合,提出了一种适合倾斜角度在–90至90°之间的中文印刷体文本图像文件识别技术.实验结果显示,在1606张测试集图像文件的识别中,本文算法针对文本图像文件整体识别F值(F-Measure)为0.95,平均识别耗时为0.65 s.
文摘提出了一种新的基于特征串匹配的文件内容动态识别算法,对文件类型可快速有效地识别,此技术可应用于网络信息流动的监控;研究了多种多模式串字符文本匹配算法,并基于Boyer—Moore提出了多特征串匹配算法(multiple features tringmatching algorithm,MFSM),以加速大量特征串匹配运算,与传统的“暴力”算法相比,MFSM在匹配速度上要快一倍以上。