基于自动机理论的PDF文本内容抽取被引量：8

Extraction of text content from PDF documents based on automaton theory

下载PDF

导出

摘要现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%～37%。 The existing methods of extracting text content from a PDF file, such as the one adopted by the PDFBox library, are not efficient enough to handle the high-speed network traffic. Moreover, these methods cannot extract the contents streamingly from partial PDF packets in transfer. This paper proposed a new method based on automaton theory. The method adopted a hierarchical keyword Deterministic Finite Automaton （DFA） to extract information from complete or incomplete PDF files. The experimental results show that the response time of the proposed method is about 17% - 37% of the algorithm used by PDFBox when processing PDF files in Chinese or English.

作者王晓娟谭建龙刘燕兵刘金刚

机构地区首都师范大学计算机科学联合研究院中国科学院计算技术研究所中国科学院研究生院

出处《计算机应用》 CSCD 北大核心 2012年第9期2491-2495,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(61070026) 国家863计划项目(2011AA010705)

关键词文本内容抽取自动机确定的有穷自动机不完整文档 text content extraction automaton Deterministic Finite Automation （DFA） incomplete document

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Adobe Systems Incorporated. PDF reference : sixth edition [ EB / OL]. [2010-10-23]. http://www. adobe. com/content/dam/Ado- be/en/devnet/acrobat/pdfs/pdf-reference-1-7. pdf.
2杨道良.面向对象的中文PDF阅读器的设计与实现[J].计算机应用,1999,19(6):1-4. 被引量：13
3李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10
4李贵林,李建中,杨艳.用Plug-in实现对PDF文件的信息提取[J].计算机应用,2003,23(2):110-112. 被引量：16
5李珍,田学东.PDF文件信息的抽取与分析[J].计算机应用,2003,23(12):145-147. 被引量：21
6张秀秀,张立峰.PDF文件文本内容提取研究[J].科技情报开发与经济,2008,18(36):118-120. 被引量：16
7WILLIAM S L, DAVID F B. Document analysis of PDF files: meth- ods, results and implications[ J]. Electronic Publishing Origination Dissemination and Design, 1995, 8 (2/3) : 207 - 220.
8YUAN FANG, LIU BO, YU GE. A study on information extraction from PDF files[ C]// ICMLC 2005: Proceedings of the 4th Interna- tional Conference Advances in Machine Learning and Cybernetics, LNCS 3930. Berlin: Springer-Verlag, 2005:258 - 267.
9CHAO HUI, FAN JIAN. Layout and content extraction for PDF doc- uments[ C]// DAS 2004: Proceedings of Document Analysis Sys- tems, LNCS 3108. Berlin: Springer-Verlag, 2004:213 - 224.
10TAMIR H, ROBERT B. Intelligent text extraction from PDF docu- ments[C]// CIMCA/IAWTIC 2005: Proceedings of the 2005 Inter- national Conference on Computational Intelligence for Modelling, Control and Automation, and International Conference on Intelligent Agents, Web Technologies and Intemet Commerce. Washington, DC: IEEE Computer Society, 2005:2 - 6.

二级参考文献36

1王琳琳.PDF文件格式及其在图书馆中的应用[J].现代情报,2005,25(6):89-90. 被引量：5
2王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
3郭文强,赵玉章,韩莉英.面向PDF文档的安全电子邮件系统[J].计算机应用研究,2007,24(2):151-154. 被引量：2
4陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
5陈云榕,刘立柱,叶晗.PDF文档中JPEG图像的自动提取技术研究[J].信息工程大学学报,2007,8(2):213-216. 被引量：2
6PDF Reference [EB/OL]. [2008-04-15], http://www.adobe.com/ devnet/pdf/pdfs/PDFReference 13.pdf.
7PDFBox [EB/OL]. [2008-11 -05].http://sourceforge.net/project/ showfiles.php?group_id=78314.
8ISO 32000-1:2008,Document management-Portable document format-Part 1:PDF 1.7[S].
9Adobe Systems Inc.PDF reference version 1.7 (6thEdition)[EB/ OL].htt://www.adobe.com/devnet/acrobat/pdfs/PDF32000_2008.pdf,2009-01-17.
10Adobe Developers Association.TIFF revision 6.0.[EB/OL].http://www.adobe.com/Support/TechNotes.html,2008-12-08.

共引文献65

1李慧.PDF文档与多媒体电子图书[J].晋图学刊,2001(1):23-25. 被引量：1
2肖守柏.IEEE批量上传解析PDF方案设计[J].生物技术世界,2013,10(3):169-169.
3李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
4顾兆军,张俊.PDF文件链接信息提取与修改[J].计算机工程,2005,31(B07):187-188. 被引量：3
5宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
6王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
7陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
8刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
9郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
10王学忠,肖斌.编程直接生成PDF文档的方法与实现[J].科技信息,2008(14):39-41. 被引量：9

同被引文献43

1郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
2宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
3刘建辉,张俊利,王爽.基于Agent的远程协同故障诊断系统研究[J].计算机测量与控制,2006,14(1):39-42. 被引量：7
4刘利军,怀进鹏.基于有穷自动机的网络扫描检测算法研究与实现[J].计算机研究与发展,2006,43(3):417-422. 被引量：9
5王鹏飞,杨和梅,丁俊松.利用Struts+iText在J2EE中实现PDF报表[J].现代电子技术,2006,29(22):46-48. 被引量：7
6陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
7杨学庆,柳重堪.哈密顿路径问题的一种基于有穷自动机的DNA算法[J].计算机工程与应用,2007,43(18):87-89. 被引量：2
8Alfred V. Aho, Monica S. Lam, Ravi Sethi, Jeffrey D. Ullman. Compilers: principle, techniques and tools (2nd Edition)[M]. America: Addison Wesley, 2007.
9郑稚敏.基于非连续频谱的短波传输技术研究[D].杭州:浙江大学,2014.
10Adobe.Acrobat XI SDK 10.1 [EB/OL].[2014-12-01].http:// www.adobe.com/devnet/acrobat/sdk/eula.html, 2014.

引证文献8

1龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
2何振宇.基于自动机理论的自动循迹搜索目标算法[J].信息技术,2014,38(12):152-154.
3吴其林,汪世义.面向应用型人才能力培养的编译原理教学内容剪裁研究[J].巢湖学院学报,2014,16(6):146-150. 被引量：1
4娄景艺,屈晓旭.一种基于PDF动态标注的远程维修指导系统[J].微型机与应用,2015,34(11):89-92.
5李雪驹,王智广,鲁强.一种规则与SVM结合的论文抽取方法[J].计算机技术与发展,2017,27(10):24-29. 被引量：5
6袁雪,刘敏娟,刘洪冰,王新,赵婉婧,江浩.基于信息资源聚合的交互式报告生成模型研究[J].数字图书馆论坛,2020(10):38-43. 被引量：1
7张建东,陈仕吉,徐小婷,左文革.基于词向量的PDF表格抽取研究[J].数据分析与知识发现,2021,5(8):34-44. 被引量：6
8王德成,陈燕.“编译原理”课程的应用型实践教学体系设计[J].科技信息,2014(12):217-218.

二级引证文献14

1王向东,金玉玕.石炭纪年代地层学研究概况[J].地层学杂志,2000,24(2):90-98. 被引量：27
2牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11
3梁德赛.应用型高校编译原理教学探索与尝试[J].辽宁广播电视大学学报,2016(4):66-68.
4薛欢欢,赵瑞雪,寇远涛,鲜国建.农业中文期刊论文信息自动识别与抽取模型构建及实现[J].情报工程,2019,5(6):46-56.
5黄昇.基于Python的高校电子文档管理系统[J].计算机系统应用,2021,30(4):69-76. 被引量：5
6张伟,潘兴明,张海波,何霄,薄佳男,秦小龙.基于词性标注和规则相结合的信息抽取方法[J].计算机技术与发展,2021,31(10):215-220. 被引量：6
7林鑫,余华娟,闫奕臻.复杂表格数据化中的单元格语义关系识别研究[J].数字图书馆论坛,2022(9):28-35.
8何彦青,陈光云,兰天,李岩,郭航程.基于Rule-Faster-RCNN的多语科技论文PDF文档结构框架元素解析[J].情报科学,2023,41(4):51-61.
9梁天恺,苏新铎,黄宇恒,徐天适,张华俊,曾碧.智能化表格识别技术综述[J].计算机工程与应用,2023,59(12):62-76. 被引量：1
10罗小清,贾网,李佳静,闫宏飞,孟涛,冯科.一种面向证券信息披露长文档的表格分类方法[J].中文信息学报,2023,37(5):70-79. 被引量：1

1周宇.词法分析原理在网管软件中的应用[J].信息通信,2008,21(3):52-53. 被引量：1
2文家朝,杨鸿章.针对PDF的多文件信息抽取的研究与实现[J].凯里学院学报,2016,34(3):95-97. 被引量：1
3龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
4尹燕,陶世群.一种适于XPath查询的自动机最小化算法[J].电脑开发与应用,2009,22(11):3-5.
5陈芳,沈虹,张霞.精确学习模型下确定的有穷自动机的学习[J].现代电子技术,2005,28(17):73-74.
6陈芳,沈虹,穆静.多态自动机在字符串搜索及统计时的应用[J].西安工业学院学报,2005,25(4):340-342.
7胡侠,林晔,王灿,林立.自动文本摘要技术综述[J].情报杂志,2010,29(8):144-147. 被引量：24
8胡品辉,凌捷,逯峰.信息安全审计技术在财政行业的应用[J].计算机工程与设计,2007,28(21):5314-5316. 被引量：2
9张坤,刘欣颖,亓静.对DFA最小化算法等价性问题的探讨与改进[J].科技信息,2008(31):77-77.
10牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11

计算机应用

2012年第9期

浏览历史

内容加载中请稍等...

基于自动机理论的PDF文本内容抽取被引量：8

参考文献14

二级参考文献36

共引文献65

同被引文献43

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于自动机理论的PDF文本内容抽取 被引量：8

参考文献14

二级参考文献36

共引文献65

同被引文献43

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于自动机理论的PDF文本内容抽取被引量：8