基于词向量的PDF表格抽取研究被引量：6

Extracting PDF Tables Based on Word Vectors

导出

摘要【目的】解决PDF表格抽取中复杂表头的表格需要依靠大量人工标注的问题。【方法】利用框线信息进行表格检测与结构构建识别文档中表格结构信息后,使用词向量表示其中的内容文本,并计算表格行间内容余弦相似度,最后利用该值判断表格中表头与内容分界行。【结果】在自建PDF表格数据集上进行信息抽取实验,表格信息抽取结果 F1值为98.07%,表格内容划分结果 F1值超过99%,效果接近需要大量标注语料的深度学习文本分类模型。【局限】所提方法只能抽取关系型表格,且不适用于扫描型PDF文档。【结论】所提方法能够在一定程度上解决PDF文件复杂表头表格的自动抽取问题。 [Objective] This paper tries to reduce the manual annotations in extracting table with complicated header from PDF documents. [Methods] First, we identified table cells structure based on the line segment and represented the cell contents with word vectors. Then, we calculated the word vector similarity of the table content in each line. Finally, we separeted the table headers and contents. [Results] We examined our method on the selfbuilt PDF table data set. The value of the table information extraction result F1 was 98.07%, and the table content division result F1 value exceeded 99%. They are close to the deep learning text classification model requiring large amount of annotated corpus. [Limitations] Our method can only extract relational tables, and cannot be applied to scanned PDF documents. [Conclusions] The proposed method can automatically extract PDF tables with complicated heades.

作者张建东陈仕吉徐小婷左文革 Zhang Jiandong;Chen Shiji;Xu Xiaoting;Zuo Wenge(China Agricultural University Library,Beijing 100193,China;Chinese Academy of Science and Education Evaluation(CASEE),Hangzhou Dianzi University,Hangzhou 310018,China)

机构地区中国农业大学图书馆杭州电子科技大学中国科教评价研究院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第8期34-44,共11页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重大项目(项目编号:19ZDA348)的研究成果之一。

关键词表格抽取 PDF 词向量 Table Extraction PDF Word Vector

分类号 G350 [文化科学—情报学]

引文网络
相关文献

参考文献10

1张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
2陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
3文家朝,杨鸿章.针对PDF的多文件信息抽取的研究与实现[J].凯里学院学报,2016,34(3):95-97. 被引量：1
4赵洪,王芳.大规模异构的政府统计报表信息抽取与集成融合研究[J].情报学报,2020,39(9):938-948. 被引量：7
5毛尚伟,张志清,汤槟,郑成坤,翟波,符云清.基于Transfer-crf神经网络的电子表格智能识别算法[J].重庆理工大学学报（自然科学）,2019,33(10):155-160. 被引量：6
6刘仕阳,王威威,化柏林.多源数据环境下公共文化服务机构年报的数据抽取研究[J].图书馆杂志,2020,39(12):52-60. 被引量：7
7于丰畅,程齐凯,陆伟.基于几何对象聚类的学术文献图表定位研究[J].数据分析与知识发现,2021,5(1):140-149. 被引量：5
8于丰畅,陆伟.基于机器视觉的PDF学术文献结构识别[J].情报学报,2019,38(4):384-390. 被引量：11
9宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159. 被引量：7
10王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8

二级参考文献72

1张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J].现代图书情报技术,2004(6):1-5. 被引量：26
2唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
3宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
4王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
5刘柏嵩.面向数字图书馆的本体自动构建[J].中国图书馆学报,2006,32(5):47-51. 被引量：6
6陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
7陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
8Min Yuh Day, Richard Tzong Han Tsai, Cheng Lung Sung, et al. Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework [ J ]. Decision Support Systems, 2007 ( 43 ) : 152 - 167.
9Hu Y H, Li H, Cao Y B, et al. Automatic Extraction of Titles from General Documents Using Machine Learning [ J ]. Information Processing and Management, 2006,42 ( ! ) :! 276 - 1293.
10Yu J D, Fan X Z. Metadata Extraction from Chinese Research Papers Based on Conditional Random Fields[ J/OL]. [2008 -10- 21 ]. http://ieeexplore, ieee. org/stamp/stamp, jsp? arnumber = 4405975 &isnumber = 4405869.

共引文献55

1郝昕毓,周建涛,王昊.表格单元格分类的端到端不完全监督方法[J].计算机与数字工程,2023,51(1):59-65.
2张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
3李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10
4欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6
5商杰,陈德华,薛莉芳.文本元数据自动抽取算法的研究[J].计算机应用与软件,2011,28(12):148-150. 被引量：2
6王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
7刘春江,朱江.会议文献开放资源采集与服务系统的元数据抽取[J].情报理论与实践,2012,35(9):117-119. 被引量：1
8龚立群,马宝英,常晓荣.科技文献元数据自动抽取研究述评[J].计算机系统应用,2013,22(3):11-15. 被引量：6
9李兰友,陈立,谢雪莲.面向Web的PDF文档构建技术[J].计算机与现代化,2013(12):184-187. 被引量：4
10肖守柏.批量上传解析PDF技术难点分析[J].江西科技学院学报,2013,8(4):54-55.

同被引文献39

1应自炉,赵毅鸿,宣晨,邓文博.多特征融合的文档图像版面分析[J].中国图象图形学报,2020,0(2):311-320. 被引量：7
2李艳霞,孙羽菲,张玉志.受限表格识别系统的研究[J].计算机工程与应用,2006,42(31):161-163. 被引量：6
3陈云榕,刘立柱,叶晗.PDF文档中JPEG图像的自动提取技术研究[J].信息工程大学学报,2007,8(2):213-216. 被引量：2
4赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J].现代图书情报技术,2008(3):24-31. 被引量：11
5王行荣,应俊.手写表格识别系统研究和实现[J].计算机科学,2008,35(6):268-271. 被引量：5
6张秀秀,张立峰.PDF文件文本内容提取研究[J].科技情报开发与经济,2008,18(36):118-120. 被引量：16
7胡大洋.基于启发式规则的多记录页面分隔符识别方法[J].软件导刊,2009,8(9):50-51. 被引量：1
8秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220. 被引量：6
9袁鸿雁.基于本体的Web表格信息抽取技术的研究[J].青岛大学学报（自然科学版）,2010,23(2):47-51. 被引量：3
10李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1614

引证文献6

1林鑫,余华娟,闫奕臻.复杂表格数据化中的单元格语义关系识别研究[J].数字图书馆论坛,2022(9):28-35.
2何彦青,陈光云,兰天,李岩,郭航程.基于Rule-Faster-RCNN的多语科技论文PDF文档结构框架元素解析[J].情报科学,2023,41(4):51-61.
3梁天恺,苏新铎,黄宇恒,徐天适,张华俊,曾碧.智能化表格识别技术综述[J].计算机工程与应用,2023,59(12):62-76. 被引量：1
4罗小清,贾网,李佳静,闫宏飞,孟涛,冯科.一种面向证券信息披露长文档的表格分类方法[J].中文信息学报,2023,37(5):70-79. 被引量：1
5李英群,李亚菲,裴雷,胡志伟,宋宁远.基于YOLOv5-ECA-BiFPN的学术期刊文献图表识别与提取方法研究[J].数据分析与知识发现,2023,7(11):158-171. 被引量：4
6罗平,杨清平,曹逸轩,曹荣禹,何清.非关系型表格理解前沿进展[J].中文信息学报,2024,38(5):1-21.

二级引证文献6

1邓宇晗,阳富民,袁凌,胡贯荣.一种适用于轻量级网络的双分支融合注意力机制[J].计算机与数字工程,2023,51(12):2831-2835.
2王洋,梁礼明.基于YOLOv5的芯片表面缺陷检测算法优化[J].自动化应用,2024,65(9):151-154.
3许云涛,焦培刚,刘家齐.基于YOLOv5m的电机换向器缺陷检测[J].山东交通学院学报,2024,32(2):10-18.
4孟美任,彭希珺,华宁,张晓林.研究论文支撑数据审查:逻辑、方法与实施框架[J].中国科技期刊研究,2024,35(7):873-881. 被引量：1
5方靖宇,韩文涛,应成才,何天祥,徐瑞吉,毛科技.基于深度学习的CAD表格识别算法设计[J].科技资讯,2024,22(16):16-20.
6陶亮晨.编辑距离优化的表格识别方法[J].福建电脑,2024,40(11):1-9.

1马志远,余粟.基于Faster-RCNN网络的表格检测算法研究[J].智能计算机与应用,2020,10(12):24-27. 被引量：7
2学术论文中表格制作的注意事项[J].临床与实验病理学杂志,2021,37(5):581-581.
3苏华,何平平,吴孟琳,胡蝶.产后出血急救配合清单的设计与应用[J].当代护士（上旬刊）,2021,28(7):90-93.
4唐锐,邓建新,叶志兴,张海平.PDF文件的表格抽取研究综述[J].计算机应用与软件,2021,38(7):1-7. 被引量：8
5学术论文中表格制作的注意事项[J].临床与实验病理学杂志,2021,37(8):995-995.
6朱玲凤,龚清宇,曾艳,张嫱.儿童静脉留置针电子登记表格在管理中的应用效果[J].当代护士（中旬刊）,2021,28(6):188-190.
7润英联发布最新一代电气化汽车变速箱油品添加剂产品[J].上海化工,2021,46(4):20-20.
8陈国红,徐召.梁桥桥墩纵桥向计算长度系数研究[J].中外公路,2021,41(3):116-121. 被引量：4
9杨丹,邵玉斌,张海玲,龙华,杜庆治.融合多特征的半监督并列结构识别[J].小型微型计算机系统,2021,42(9):1818-1825. 被引量：2
10高丽华.基于AutoCAD的齿轮CAD系统的开发[J].内燃机与配件,2021(17):198-199.

数据分析与知识发现

2021年第8期

浏览历史

内容加载中请稍等...

基于词向量的PDF表格抽取研究被引量：6

参考文献10

二级参考文献72

共引文献55

同被引文献39

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于词向量的PDF表格抽取研究 被引量：6

参考文献10

二级参考文献72

共引文献55

同被引文献39

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于词向量的PDF表格抽取研究被引量：6