摘要
字符切分目前已经成为限制OCR技术发展的瓶颈 ,对于图像质量较差、中英文混排和背景色变化的文本图像 ,传统切分方法造成的切分错误使得文字识别率大大降低。针对这些问题 ,本文提出了新型文字切分方法。该方法先将灰度图像的灰度值进行分级处理 ,再根据分级连通域的概念把整个图像构造成树状结构 ,然后确定主层次级别 ,根据一定的规则在部分节点上进行合并、分割等进一步处理 ,最后得到最优的切分结果。实验结果表明 。
In order to overcome the weakness of conventional segmentation algorithm in OCR, this paper presents a new segmentation method for gray document image. Important features of the new method include grading of the grayscale of pixels in image and construction of a tree structures for the whole document image. By dividing this trees branches and leaves, characters, pictures and forms can be correctly segmented. The experiment results showed that this method is very effective for document with both Chinese and English characters or document with different backgrounds.
出处
《中文信息学报》
CSCD
北大核心
2004年第4期44-49,共6页
Journal of Chinese Information Processing
基金
8 6 3计划资助项目 (2 0 0 3AA1Z2 2 30 )
科技部中小企业创新基金资助项目 (0 1C2 6 2 1 4 4 2 0 2 0 7)
计算所领域前沿青年基金资助项目 (2 0 0 2 6 1 80 - 1 9)
关键词
人工智能
模式识别
字符切分
灰度图像
OCR
artificial intelligence
pattern recognition
character segmentation
gray image
OCR