针对PDF的多文件信息抽取的研究与实现被引量：1

Research on Extracting Information from Multiple PDF Files

下载PDF

导出

摘要在日常的学习和工作中,PDF文件和WORD文档一样,是一种文件格式.PDF文件有自己的优点,例如不易被误改,但它也有一些不方便的缺点,例如查找文档的信息没有WORD文档方便,特别是在需要查找多个PDF文档是否包含一些用户感兴趣的信息的情况,这就涉及到PDF文件的信息抽取问题.本文阐述了一种使用Java开源工具PDFBox处理相关信息抽取的PDF多文件信息抽取的有效方法. In the daily study and work,PDF files and word documents are the format we can see usually. PDF file has its own advantages,for example,it is not easy to be modified by mistake,but there are also some inconvenient shortcomings,such as it is less convenient to find information in it that do the same thing in word document,especially in the case that user want to know whether there are some interest information in multiple PDF document. This involved the issue how to extract information from PDF files. Therefore,this paper expounded the method of extracting information from PDF document to solve this problem. In this process,the Java open source tool PDFBox was used to deal with related information extraction.

作者文家朝杨鸿章

机构地区凯里学院

出处《凯里学院学报》 2016年第3期95-97,共3页 Journal of Kaili University

关键词 PDF 信息抽取开源工具 PDFBox PDF information extract open source tool PDFBox

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献9

1陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
2宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159. 被引量：7
3张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
4王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
5于丰畅,陆伟.基于机器视觉的PDF学术文献结构识别[J].情报学报,2019,38(4):384-390. 被引量：11
6毛尚伟,张志清,汤槟,郑成坤,翟波,符云清.基于Transfer-crf神经网络的电子表格智能识别算法[J].重庆理工大学学报（自然科学）,2019,33(10):155-160. 被引量：6
7赵洪,王芳.大规模异构的政府统计报表信息抽取与集成融合研究[J].情报学报,2020,39(9):938-948. 被引量：7
8刘仕阳,王威威,化柏林.多源数据环境下公共文化服务机构年报的数据抽取研究[J].图书馆杂志,2020,39(12):52-60. 被引量：6
9于丰畅,程齐凯,陆伟.基于几何对象聚类的学术文献图表定位研究[J].数据分析与知识发现,2021,5(1):140-149. 被引量：5

引证文献1

1张建东,陈仕吉,徐小婷,左文革.基于词向量的PDF表格抽取研究[J].数据分析与知识发现,2021,5(8):34-44. 被引量：5

二级引证文献5

1林鑫,余华娟,闫奕臻.复杂表格数据化中的单元格语义关系识别研究[J].数字图书馆论坛,2022(9):28-35.
2何彦青,陈光云,兰天,李岩,郭航程.基于Rule-Faster-RCNN的多语科技论文PDF文档结构框架元素解析[J].情报科学,2023,41(4):51-61.
3梁天恺,苏新铎,黄宇恒,徐天适,张华俊,曾碧.智能化表格识别技术综述[J].计算机工程与应用,2023,59(12):62-76.
4罗小清,贾网,李佳静,闫宏飞,孟涛,冯科.一种面向证券信息披露长文档的表格分类方法[J].中文信息学报,2023,37(5):70-79.
5李英群,李亚菲,裴雷,胡志伟,宋宁远.基于YOLOv5-ECA-BiFPN的学术期刊文献图表识别与提取方法研究[J].数据分析与知识发现,2023,7(11):158-171. 被引量：3

1龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
2牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11
3吴代文.基于Lucene全文检索应用研究[J].微计算机应用,2011,32(2):62-65. 被引量：2
4欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6
5胡荣磊,左珮良,蒋华.基于JavaWeb的PDF安全编辑系统的设计与实现[J].北京电子科技学院学报,2015,23(2):68-73. 被引量：1
6王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
7欧阳辉,禄乐滨.基于证据理论的论文元数据抽取算法研究[J].电子设计工程,2010,18(4):66-69. 被引量：3
8许琦.面向本地数据的插件式全文索引工具软件研究与开发[J].计算机与数字工程,2014,42(8):1431-1435.
9吴代文.Lucene文本分析器的改进[J].信息技术,2011,35(10):62-64.
10信强,刘群华,赵新林,韩峰.红外光幕靶信号采集与调理电路设计[J].电子设计工程,2010,18(4):99-101. 被引量：3

凯里学院学报

2016年第3期

浏览历史

内容加载中请稍等...

针对PDF的多文件信息抽取的研究与实现被引量：1

同被引文献9

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

针对PDF的多文件信息抽取的研究与实现 被引量：1

同被引文献9

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

针对PDF的多文件信息抽取的研究与实现被引量：1