基于游程聚类的表格框线检测算法被引量：6

Table frame line detection algorithm based on run-length clustering

下载PDF

导出

摘要现有的基于游程的表格框线检测算法检测速度快,但对于复杂表格框线检测质量不高,甚至出现大量错误。提出一种基于游程层次聚类的表格框线检测算法。首先,把可能属于同一条横线或纵线的游程划分到一个游程组,定义了两条框之间的相似度;然后以这组游程为初始原子类,通过层次聚类迭代地选择相似度最大的两条横线或纵线合并为一条框线。当相似度最大的两条框线相似度小于预先设定的一个阈值或仅剩下一条框线时迭代停止。针对图像中的标题和说明段等文字信息形成的线条,提出亲属表格线的概念,删除不包含两条亲属表格线的线段,最后对提取的框线进行二次提取。为了对算法加速,提出对各游程组并行聚类。实验结果表明,该算法相比现有算法对一些复杂表格的框线识别率提高了50%以上。 The existing frame line detection algorithm based on run-length takes few of time, but has low quality for complex frame line detection and even a lot of errors. A kind of method based on run-length clustering for frame line detection was presented. Firstly, run-lengths which belonged to the same horizontal fine or vertical line were put together as one group. The similarity between two lines was defined. Then under hierarchical clustering, the two lines with the biggest similarity were merged into one line iteratively with these run-lengths as the initial classes in the group. The iteration stopped when the similarity between the two lines with the biggest similarity is less than the threshold set beforehand or only one line is left. For those lines generated by captions and explanatolT paragraphs, the paper defined the concept of relative frame fine and the fines which did not have two relatives were deleted. Frame fines were extracted after one process named second extraction. In order to increase the speed of the algorithm, parallel clustering for each run-length group was presented. The experimental result shows that this algorithm increases accuracy by 50% for the frame line recognition of some complex tables compared with the existing method.

作者白伟崔喆 BAI Wei;CUI Zhe(Chengdu Institute of Computer Application,Chinese Academy of Sciences,Chengdu Sichuan 610041,China;University of Chinese Academy of Sciences,Belting 100049,China)

机构地区中国科学院成都计算机应用研究所中国科学院大学

出处《计算机应用》 CSCD 北大核心 2018年第A01期179-182,共4页 journal of Computer Applications

基金四川省科技支撑计划项目(2015GZ0088) "西部之光"联合学者项目

关键词表格识别框线检测表格线游程层次聚类 table recognition frame line detection run-length of table line hierarchical clustering

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1郑冶枫,刘长松,丁晓青,潘世言.基于有向单连通链的表格框线检测算法[J].软件学报,2002,13(4):790-796. 被引量：23
2沈军强,肖刚,高飞,陈久军.基于表格线游程的选票图像几何结构识别[J].计算机工程,2009,35(17):187-189. 被引量：8

二级参考文献12

1管继斌,明德烈.基于游程的倾斜表格图像的快速检测和校正[J].华中科技大学学报（自然科学版）,2005,33(8):69-71. 被引量：7
2Tang Y Y, Lee S W, Suen C Y. Automatic Document Processing: A Survey[J]. Pattern Recognition, 1996, 29(12): 1931-1952.
3Liu Jinhui, Ding Xiaoqing, Wu Youshou. Description and Recognition of Form and Automated Form Data Entry[C]//Proc. of the 3rd International Conference on Document Analysis and Recognition. Montreal, Canada: [s. n.], 1995: 579-582.
4Illingworth,J.,Kittler,J.A survey of the hough transform.Computer Vision,Graphics,and Image Processing,1988,44(1):87～116.
5Liu,J.H.,Ding,X.Q.,Wu,Y.S.,et al.Description and recognition of form and automated form data entry.In: Proceedings of the 3th International Conference on Document Analysis and Recognition.Montreal,Canada,1995.579～582.
6Liu,W.Y.,Dov,D.From raster to vectors: extracting visual information from line drawings.Pattern Analysis and Application,1999,2(1):10～21.
7Yu,B.,Jain,A.K.A generic system for form dropout.IEEE Transactions on Pattern Analysis and Machine Intelligence,1996,18(11):1127～1131.
8Pan,S.Y.Research and realization of a generic form recognition system [MS.Thesis].Beijing: Tsinghua University,1999 (in Chinese).
9Chen,J.-L.,Lee,H.-J.An efficient algorithm for form structure extraction using strip projection.Pattern Recognition,1998,31(9):1353～1368.
10潘世言.通用表格识别系统的研究与实现[硕士学位论文].北京:清华大学,1999.

共引文献28

1周绍光,辛莉,田林亚.利用数字影像中直线的结构特征检测直线段[J].计算机工程与应用,2004,40(22):71-74. 被引量：3
2郑秀清,付茂名.一种改进的自动表格框线检测方法[J].中国民航飞行学院学报,2004,15(4):30-32. 被引量：2
3陈优广,顾国庆,张薇,许彦冰.一种新的表格单元格矩形识别算法[J].计算机工程,2006,32(13):9-11. 被引量：3
4李艳霞,孙羽菲,张玉志.受限表格识别系统的研究[J].计算机工程与应用,2006,42(31):161-163. 被引量：6
5卜飞宇,刘长松.基于边缘检测的多文本页图像分割方法[J].计算机工程与设计,2007,28(8):1861-1863. 被引量：2
6周绍光,赵建泉.任意倾角表格框线的快速检测[J].计算机工程,2008,34(3):277-279. 被引量：1
7张艳,郁生阳,张重阳,杨静宇.表格型票据中框线检测与去除算法[J].计算机研究与发展,2008,45(5):909-914. 被引量：5
8刘艳顺,邱泽阳.一种基于自适用结构元素的表格框线去除形态学算法[J].贵州大学学报（自然科学版）,2008,25(4):350-353.
9章胜玲,张蓉生,李娜,李立.图像稠密坐标网格的去除[J].水电能源科学,2009,27(4):74-76.
10沈军强,肖刚,高飞,陈久军.基于表格线游程的选票图像几何结构识别[J].计算机工程,2009,35(17):187-189. 被引量：8

同被引文献24

1周冠玮,平西建,程娟.基于改进Hough变换的文本图像倾斜校正方法[J].计算机应用,2007,27(7):1813-1816. 被引量：33
2李云华,段会川.基于Hough变换的图像档案的表格提取与倾斜校正[J].信息技术与信息化,2007(6):49-51. 被引量：5
3孙少林,马志强,汤伟.灰度图像二值化算法研究[J].价值工程,2010,29(5):142-143. 被引量：46
4刘洋洋,嵇启春.一种改进的模板匹配的数字识别算法[J].工业控制计算机,2010,23(5):76-77. 被引量：13
5曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2
6王绪,平西建,周林,王会鹏.基于投影特征与结构特征的表格图像识别[J].计算机工程,2011,37(1):210-212. 被引量：4
7张晶晶,肖刚,张元鸣,陆佳炜,徐俊.基于游程特征的选票符号识别方法[J].计算机应用,2012,32(7):1906-1909. 被引量：1
8吴珅,黄道平,刘少君.基于Radon变换的文本图像倾斜校正[J].自动化与信息工程,2013,34(5):11-15. 被引量：6
9郑冶枫,刘长松,丁晓青,潘世言.基于有向单连通链的表格框线检测算法[J].软件学报,2002,13(4):790-796. 被引量：23
10宫义山,王鹏.基于模板匹配的发票号码识别算法[J].沈阳工业大学学报,2015,37(6):673-678. 被引量：15

引证文献6

1代威,官磊,韩啸.选票版面结构识别相关技术[J].计算机应用,2019,39(S02):242-246.
2谢阳,程艳云.基于OpenCV形态学的发票定位研究[J].计算机与数字工程,2021,49(4):809-812. 被引量：1
3鲁建明,冀星,刘畅.多特征融合的表格单元格分类模型[J].信息技术与信息化,2021(5):7-11. 被引量：3
4刘云锴,彭程,边赟.基于直线段检测器的多阈值图像表格框线提取算法[J].计算机应用,2021,41(S01):250-254. 被引量：3
5吕志刚,李亮亮,王洪喜,王鹏,李晓艳.基于图像统计学聚类的非规则表格处理算法[J].计算机集成制造系统,2022,28(6):1755-1766. 被引量：1
6吕志刚,王洪喜,李亮亮,王鹏,李晓艳,邸若海.机械工艺卡非规则表格元素识别算法[J].计算机集成制造系统,2022,28(7):2179-2187. 被引量：1

二级引证文献9

1郝昕毓,周建涛,王昊.表格单元格分类的端到端不完全监督方法[J].计算机与数字工程,2023,51(1):59-65.
2李金讯,郭娜,林树鸿,颜清.基于多重图像隐藏防伪标识公文防篡改的新方法研究[J].电力大数据,2021,24(9):1-8. 被引量：2
3吕志刚,王洪喜,李亮亮,王鹏,李晓艳,邸若海.机械工艺卡非规则表格元素识别算法[J].计算机集成制造系统,2022,28(7):2179-2187. 被引量：1
4彭滢,吴杰,齐伟钢.基于神经网络和多样化特征的表格单元格分类方法[J].通信技术,2022,55(9):1146-1152.
5花豹,周彬,顾星海,鲍劲松.基于图神经网络的工艺表格语义相似性度量[J].计算机集成制造系统,2022,28(12):3805-3821. 被引量：5
6翟善发,方中纯.基于HSV色彩空间提取糖尿病变色试纸[J].信息技术与信息化,2022(12):35-38. 被引量：1
7罗小清,贾网,李佳静,闫宏飞,孟涛,冯科.一种面向证券信息披露长文档的表格分类方法[J].中文信息学报,2023,37(5):70-79. 被引量：1
8吴娅妮,王玉.基于计算机虚拟交互的现代数字绘画技术研究[J].微型电脑应用,2023,39(10):35-38.
9赵丽斌,杜娇娇,贺铮,王祝先,韩宏亮,范蕊,徐翌博.无人机遥感图像几何畸变校正全过程控制方法研究[J].计算机测量与控制,2024,32(7):133-139.

1王群群,翟振华,周鑫.恶性肿瘤患者血栓风险评估及预防干预的效果观察[J].锦州医科大学学报,2018,39(1):64-67. 被引量：5
2王友楠.如何消除初中数学教学中的“假会”现象[J].数学大世界（上旬）,2016,0(11X):33-33.
3王慧芳.社交媒体时代大学生KOL素养的提升途径[J].出版广角,2018(13):83-85. 被引量：4
4黄杰,余长庚.基于处理器时空势场修正的多城市拥堵并行聚类分析[J].计算机应用研究,2018,35(3):820-824. 被引量：1
5侯敬儒,吴晟,李英娜.基于Spark的并行KMeans聚类模型研究[J].计算机与数字工程,2018,46(3):537-540. 被引量：8
6赵思远,许志伟,刘利民,霍达,党燕.基于拓扑模型的高效表格识别机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(1):63-70. 被引量：3
7徐占洋,郑克长.云计算下基于改进遗传算法的聚类融合算法[J].计算机应用,2018,38(2):458-463. 被引量：9
8邝振,崔喆.社区选举系统选票中的表格识别算法[J].计算机应用,2017,37(A02):179-182. 被引量：7
9何义,任佳伟.上框线的独特拉法[J].蜜蜂杂志,2018,38(7):15-15.
10叶晟洲.竞争情报在政府决策中的实践应用[J].技术与市场,2018,25(6):78-79. 被引量：3

计算机应用

2018年第A01期

浏览历史

内容加载中请稍等...

基于游程聚类的表格框线检测算法被引量：6

参考文献2

二级参考文献12

共引文献28

同被引文献24

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于游程聚类的表格框线检测算法 被引量：6

参考文献2

二级参考文献12

共引文献28

同被引文献24

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于游程聚类的表格框线检测算法被引量：6