期刊文献+

基于词向量的PDF表格抽取研究 被引量:6

Extracting PDF Tables Based on Word Vectors
原文传递
导出
摘要 【目的】解决PDF表格抽取中复杂表头的表格需要依靠大量人工标注的问题。【方法】利用框线信息进行表格检测与结构构建识别文档中表格结构信息后,使用词向量表示其中的内容文本,并计算表格行间内容余弦相似度,最后利用该值判断表格中表头与内容分界行。【结果】在自建PDF表格数据集上进行信息抽取实验,表格信息抽取结果 F1值为98.07%,表格内容划分结果 F1值超过99%,效果接近需要大量标注语料的深度学习文本分类模型。【局限】所提方法只能抽取关系型表格,且不适用于扫描型PDF文档。【结论】所提方法能够在一定程度上解决PDF文件复杂表头表格的自动抽取问题。 [Objective] This paper tries to reduce the manual annotations in extracting table with complicated header from PDF documents. [Methods] First, we identified table cells structure based on the line segment and represented the cell contents with word vectors. Then, we calculated the word vector similarity of the table content in each line. Finally, we separeted the table headers and contents. [Results] We examined our method on the selfbuilt PDF table data set. The value of the table information extraction result F1 was 98.07%, and the table content division result F1 value exceeded 99%. They are close to the deep learning text classification model requiring large amount of annotated corpus. [Limitations] Our method can only extract relational tables, and cannot be applied to scanned PDF documents. [Conclusions] The proposed method can automatically extract PDF tables with complicated heades.
作者 张建东 陈仕吉 徐小婷 左文革 Zhang Jiandong;Chen Shiji;Xu Xiaoting;Zuo Wenge(China Agricultural University Library,Beijing 100193,China;Chinese Academy of Science and Education Evaluation(CASEE),Hangzhou Dianzi University,Hangzhou 310018,China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第8期34-44,共11页 Data Analysis and Knowledge Discovery
基金 国家社会科学基金重大项目(项目编号:19ZDA348)的研究成果之一。
关键词 表格抽取 PDF 词向量 Table Extraction PDF Word Vector
  • 相关文献

参考文献10

二级参考文献72

共引文献55

同被引文献39

引证文献6

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部