-
题名基于有向单连通链的表格框线检测算法
被引量:23
- 1
-
-
作者
郑冶枫
刘长松
丁晓青
潘世言
-
机构
清华大学电子工程系
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第4期790-796,共7页
-
基金
国家自然科学基金资助项目(69972024)
863高科技发展计划基金资助项目(863-306-ZT03-03-1)
-
文摘
表格框线检测是表格识别的基础.现有的表格框线检测算法或者速度慢,或者鲁棒性差,而且没有充分利用表格框线之间的约束信息提出了一种基于所定义的图像结构基元“有向单连通链”的自底向上表格框线检测算法.在此算法中,有向单连通链是一种黑像素游程序列,作为非常合适的矢量基元,在引入一定表格框线约束信息的条件下合并单连通链,有效地去除伪框线,补全断裂的框线,提高了算法的鲁棒性,可以准确而快速地提取表格框线.通过滤除噪声单连通链,加快单连通链的合并速度,算法速度提高了3~10倍,满足了实用要求、实验证明,该算法具有速度较快、鲁棒性高、抗任意角度的倾斜、抗断裂等优点.
-
关键词
表格识别
图像分析
光学字符识别
智能文档处理
表格框线检测算法
有向单连通链
-
Keywords
form recognition
image analysis
line detection
optical character recognition (OCR)
intelligent document processing
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于游程聚类的表格框线检测算法
被引量:6
- 2
-
-
作者
白伟
崔喆
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
-
出处
《计算机应用》
CSCD
北大核心
2018年第A01期179-182,共4页
-
基金
四川省科技支撑计划项目(2015GZ0088)
"西部之光"联合学者项目
-
文摘
现有的基于游程的表格框线检测算法检测速度快,但对于复杂表格框线检测质量不高,甚至出现大量错误。提出一种基于游程层次聚类的表格框线检测算法。首先,把可能属于同一条横线或纵线的游程划分到一个游程组,定义了两条框之间的相似度;然后以这组游程为初始原子类,通过层次聚类迭代地选择相似度最大的两条横线或纵线合并为一条框线。当相似度最大的两条框线相似度小于预先设定的一个阈值或仅剩下一条框线时迭代停止。针对图像中的标题和说明段等文字信息形成的线条,提出亲属表格线的概念,删除不包含两条亲属表格线的线段,最后对提取的框线进行二次提取。为了对算法加速,提出对各游程组并行聚类。实验结果表明,该算法相比现有算法对一些复杂表格的框线识别率提高了50%以上。
-
关键词
表格识别
框线检测
表格线游程
层次聚类
-
Keywords
table recognition
frame line detection
run-length of table line
hierarchical clustering
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名任意倾角表格框线的快速检测
被引量:1
- 3
-
-
作者
周绍光
赵建泉
-
机构
河海大学测绘工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第3期277-279,共3页
-
文摘
表格的识别近年来受到了越来越多的关注,已取得一些行之有效的成果。其中的部分算法可抗任意角度的倾斜,然而其运行效率却都低于投影类方法。而投影方法虽然效率很高,但不能处理严重倾斜的表格。文章给出一种新的检测倾斜表格框线的途径。算法利用数字影像中直线段的结构特征高效地检测出表格的一条边框线,并由此获得所需的角度值,进而沿着角度所指定的方向迅速搜索出边框线。整个检测方法的效率类似于投影法,同时可抗任意角度的旋转。
-
关键词
直线检测
表格框线检测
表格识别
图像分析
表格倾角检测
-
Keywords
line detection
form frame-line detection
form recognition
image analysis
form skew angle measurement
-
分类号
TN911.73
[电子电信—通信与信息系统]
-
-
题名基于直线段检测器的多阈值图像表格框线提取算法
被引量:3
- 4
-
-
作者
刘云锴
彭程
边赟
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
-
出处
《计算机应用》
CSCD
北大核心
2021年第S01期250-254,共5页
-
基金
四川省重点研发项目(18ZDYF3994)。
-
文摘
针对传统表格结构识别算法中,前期图像预处理工作量大、复杂表格结构识别率低、高分辨率和高复杂度表格时间开销过于大的问题,提出先对图像表格结构利用直线段检测器进行框线检测,再利用双阈值直线判断规则,对本应属于同一直线的多条线段进行合并细化,最后对横纵线交点处缺失或过长线段,采用表格结构整体框线对齐的快速识别算法。实验结果表明,该算法既可以对图像高分辨率下简单表格和复杂表格准确识别,也可以满足图像低分辨率中简单表格和复杂表格的识别需求,可以容忍一定倾斜角度,因此减少了图像预处理工作,缩短了检测时间,甚至可以对非严格定义表格结构进行精准识别,进一步推动图像表格结构通用识别算法的进程。
-
关键词
表格结构
直线段检测器
框线检测
合并细化
框线对齐
-
Keywords
table structure
line segment detector
frame line detection
merge and refinement
frame line alignment
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名表格型文档自动识别系统及其应用
被引量:2
- 5
-
-
作者
张艳
郁生阳
张重阳
娄震
杨静宇
-
机构
公安部第三研究所
南京理工大学计算机科学与技术学院
-
出处
《系统仿真学报》
CAS
CSCD
北大核心
2009年第10期2916-2920,共5页
-
基金
国家自然科学基金(60632050
60503026)
863计划(2006AA01Z119)
-
文摘
随着文档影像系统的广泛应用,文档图像自动处理已成为当前的一个研究热点。对表格型文档自动识别系统中的若干关键技术进行了研究。首先,在版面分析中,提出了基于框线检测的文档分类方法;其次,根据表格型文档图像的特点,介绍了相应的识别域提取、框线去除以及手写字符串分割方法;最后,在手写数字识别部分,设计了一种基于形状上下文特征和梯度特征的组合识别方法。最后将该系统应用于银行票据小写金额识别,通过真实表格型票据进行仿真实验,证明了系统的有效性,系统识别率达到了实用的水平。
-
关键词
表格型文档
框线检测
框线去除
文档图像分析
手写数字识别
-
Keywords
tabular document
frame line detection
frame line removal
document image analysis
handwritten digit recognition
-
分类号
TP391.13
[自动化与计算机技术—计算机应用技术]
-