期刊文献+

针对PDF的多文件信息抽取的研究与实现 被引量:1

Research on Extracting Information from Multiple PDF Files
下载PDF
导出
摘要 在日常的学习和工作中,PDF文件和WORD文档一样,是一种文件格式.PDF文件有自己的优点,例如不易被误改,但它也有一些不方便的缺点,例如查找文档的信息没有WORD文档方便,特别是在需要查找多个PDF文档是否包含一些用户感兴趣的信息的情况,这就涉及到PDF文件的信息抽取问题.本文阐述了一种使用Java开源工具PDFBox处理相关信息抽取的PDF多文件信息抽取的有效方法. In the daily study and work,PDF files and word documents are the format we can see usually. PDF file has its own advantages,for example,it is not easy to be modified by mistake,but there are also some inconvenient shortcomings,such as it is less convenient to find information in it that do the same thing in word document,especially in the case that user want to know whether there are some interest information in multiple PDF document. This involved the issue how to extract information from PDF files. Therefore,this paper expounded the method of extracting information from PDF document to solve this problem. In this process,the Java open source tool PDFBox was used to deal with related information extraction.
机构地区 凯里学院
出处 《凯里学院学报》 2016年第3期95-97,共3页 Journal of Kaili University
关键词 PDF 信息抽取 开源工具 PDFBox PDF information extract open source tool PDFBox
  • 相关文献

同被引文献9

引证文献1

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部