期刊文献+

基于自动机理论的PDF文本内容抽取 被引量:8

Extraction of text content from PDF documents based on automaton theory
下载PDF
导出
摘要 现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。 The existing methods of extracting text content from a PDF file, such as the one adopted by the PDFBox library, are not efficient enough to handle the high-speed network traffic. Moreover, these methods cannot extract the contents streamingly from partial PDF packets in transfer. This paper proposed a new method based on automaton theory. The method adopted a hierarchical keyword Deterministic Finite Automaton (DFA) to extract information from complete or incomplete PDF files. The experimental results show that the response time of the proposed method is about 17% - 37% of the algorithm used by PDFBox when processing PDF files in Chinese or English.
出处 《计算机应用》 CSCD 北大核心 2012年第9期2491-2495,共5页 journal of Computer Applications
基金 国家自然科学基金资助项目(61070026) 国家863计划项目(2011AA010705)
关键词 文本内容抽取 自动机 确定的有穷自动机 不完整文档 text content extraction automaton Deterministic Finite Automation (DFA) incomplete document
  • 相关文献

参考文献14

  • 1Adobe Systems Incorporated. PDF reference : sixth edition [ EB / OL]. [2010-10-23]. http://www. adobe. com/content/dam/Ado- be/en/devnet/acrobat/pdfs/pdf-reference-1-7. pdf.
  • 2杨道良.面向对象的中文PDF阅读器的设计与实现[J].计算机应用,1999,19(6):1-4. 被引量:13
  • 3李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量:10
  • 4李贵林,李建中,杨艳.用Plug-in实现对PDF文件的信息提取[J].计算机应用,2003,23(2):110-112. 被引量:16
  • 5李珍,田学东.PDF文件信息的抽取与分析[J].计算机应用,2003,23(12):145-147. 被引量:21
  • 6张秀秀,张立峰.PDF文件文本内容提取研究[J].科技情报开发与经济,2008,18(36):118-120. 被引量:16
  • 7WILLIAM S L, DAVID F B. Document analysis of PDF files: meth- ods, results and implications[ J]. Electronic Publishing Origination Dissemination and Design, 1995, 8 (2/3) : 207 - 220.
  • 8YUAN FANG, LIU BO, YU GE. A study on information extraction from PDF files[ C]// ICMLC 2005: Proceedings of the 4th Interna- tional Conference Advances in Machine Learning and Cybernetics, LNCS 3930. Berlin: Springer-Verlag, 2005:258 - 267.
  • 9CHAO HUI, FAN JIAN. Layout and content extraction for PDF doc- uments[ C]// DAS 2004: Proceedings of Document Analysis Sys- tems, LNCS 3108. Berlin: Springer-Verlag, 2004:213 - 224.
  • 10TAMIR H, ROBERT B. Intelligent text extraction from PDF docu- ments[C]// CIMCA/IAWTIC 2005: Proceedings of the 2005 Inter- national Conference on Computational Intelligence for Modelling, Control and Automation, and International Conference on Intelligent Agents, Web Technologies and Intemet Commerce. Washington, DC: IEEE Computer Society, 2005:2 - 6.

二级参考文献36

共引文献65

同被引文献43

引证文献8

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部