-
题名一种复杂版面扭曲文档图像快速校正方法
被引量:4
- 1
-
-
作者
曾凡锋
段漾波
-
机构
北方工业大学计算机学院
-
出处
《计算机应用与软件》
CSCD
2016年第6期172-175,286,共5页
-
基金
国家自然科学基金项目(61371142)
北京市自然科学基金项目(4132026)
-
文摘
在对复杂版面扭曲文档图像进行OCR识别时,识别率较低。针对这类文档图像提出一种基于形态学文本行定位的扭曲校正方法。首先根据形态学特征在复杂版面中定位文本行,区分处理文字区域和非文字区域,利用文本行信息提取文本线;再以文本线为基准利用窗口扫描法进行文字行校正,最终重构图像。实验结果表明,该方法校正效果明显,对于复杂版面的扭曲文档图像有较好的校正效果,校正后识别率大幅度提高。
-
关键词
复杂版面
扭曲文档
形态学组件
窗口扫描校正
-
Keywords
Complex layout
Warped document
Morphologic component
Windows scanning correction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于字节流信息熵的版面全局复杂度的评估方法
- 2
-
-
作者
王琪
崔荣一
-
机构
延边大学工学院
-
出处
《延边大学学报(自然科学版)》
CAS
2019年第2期136-140,共5页
-
基金
吉林省自然科学基金资助项目(20140101186JC)
国家语委科研立项基金资助项目(YB135-76)
-
文摘
以图文要素构成的word2003版面存储文档为研究对象,提出了一种利用信息熵评估版面文档复杂度的方法.首先,从图像和文本存储特点出发,提出一种利用文件字节流信息熵度量版面全局复杂度的方案;其次,将文件视为信源,每个字节视为信源符号,以二进制方式读取文件,然后根据字节相关性,采用N次扩展信源计算信息熵;最后,通过实验验证表明,本文方法切实可行,给出的版面全局复杂度定量描述不仅能很好地符合人的视觉直观感受,而且能够为版面数据可压缩性提供依据.
-
关键词
版面复杂度
信息熵
字节相关性
-
Keywords
layout complexity
information entropy
correlation between bytes
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-