基于XSLT的PDF信息抽取技术的研究被引量：7

Research on PDF Information Extraction Technology Based on XSLT

下载PDF

导出

摘要以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统。首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取。测试结果表明,系统的抽取效果良好,并具有较强的扩展性。 Information extraction of PDF Document is a necessary approach to information processing. Choosing XML as information display model and XSLT as information extraction rule, this paper propose a system of PDF Information Extraction based on scientific and technological article. The fundamental thought can be expressed as follows ： converting the PDF - formatted document to a XML - formatted middle document first, then applying XSLT rules to the middle document according to its description on text, location and display. Good results from the system, and has a strong scalability.

作者宋艳娟李金铭陈振标

机构地区福建农林大学计算机与信息学院福州大学图书馆

出处《计算机与数字工程》 2008年第5期156-159,共4页 Computer & Digital Engineering

基金福建省高等学校科技项目"数字图书馆资源整合与分类技术的研究(编号:JA04164)"资助

关键词信息抽取 PDF XML XSLT information extraction, PDF, XML, XSLT

分类号 TP274.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1Adobe Portable Document Format Version 1.6 [ K/ OL] [ 2006 - 11 - 12 ]. http ://www. adobe.com/devnet/pdf/ pdfs/PDFReference16. pdf
2Ann Navarro.周生炳等译.XML从入门到精通[M].北京:电子工业出版社,2002
3Pdftohtml-0. 39[CP/OL] [2007-01 -13]. http ://sourceforge. net/projects/pdftohtml/
4Khun Yee Fung．XSLT精要从XML到HTML[M]．北京：清华大学出版社，2002．
5Jussi Myllymaki. Effective Web Data Extraction with Standard XML Technologies [ J/OL]. IBM Research Report, 2002 [ 2006 - 12 -24], http://www10.org/cdrom/papers/ pdf/pl02. pdf

共引文献1

1李铮,尤枫,赵恒永.基于XML和XSLT的Web报表解决方案的研究与实现[J].计算机工程与设计,2006,27(5):867-871. 被引量：14

同被引文献45

1田学军.PDF文件格式及其转化方法探讨[J].荆门职业技术学院学报,2005,20(3):30-32. 被引量：11
2宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
3张晓勇,张璟,李军怀.基于PDF项目文档管理系统的设计与实现[J].西北大学学报（自然科学版）,2006,36(1):36-40. 被引量：7
4王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
5孙传庆,朱正平,王秀丽.基于WEB的PDF格式输出实现[J].甘肃科技,2007,23(1):80-81. 被引量：2
6陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
7陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
8Adobe Systems Incorporated. PDF reference : sixth edition [ EB / OL]. [2010-10-23]. http://www. adobe. com/content/dam/Ado- be/en/devnet/acrobat/pdfs/pdf-reference-1-7. pdf.
9WILLIAM S L, DAVID F B. Document analysis of PDF files: meth- ods, results and implications[ J]. Electronic Publishing Origination Dissemination and Design, 1995, 8 (2/3) : 207 - 220.
10YUAN FANG, LIU BO, YU GE. A study on information extraction from PDF files[ C]// ICMLC 2005: Proceedings of the 4th Interna- tional Conference Advances in Machine Learning and Cybernetics, LNCS 3930. Berlin: Springer-Verlag, 2005:258 - 267.

引证文献7

1王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
2李兰友,陈立,谢雪莲.面向Web的PDF文档构建技术[J].计算机与现代化,2013(12):184-187. 被引量：4
3肖守柏.批量上传解析PDF技术难点分析[J].江西科技学院学报,2013,8(4):54-55.
4潘其明.电子病历版式化归档与信息抽取的研究[J].中国数字医学,2015,10(2):107-109. 被引量：3
5李雪驹,王智广,鲁强.一种规则与SVM结合的论文抽取方法[J].计算机技术与发展,2017,27(10):24-29. 被引量：4
6唐锐,邓建新,叶志兴,张海平.PDF文件的表格抽取研究综述[J].计算机应用与软件,2021,38(7):1-7. 被引量：7
7张建东,陈仕吉,徐小婷,左文革.基于词向量的PDF表格抽取研究[J].数据分析与知识发现,2021,5(8):34-44. 被引量：6

二级引证文献29

1王向东,金玉玕.石炭纪年代地层学研究概况[J].地层学杂志,2000,24(2):90-98. 被引量：27
2龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
3何振宇.基于自动机理论的自动循迹搜索目标算法[J].信息技术,2014,38(12):152-154.
4吴其林,汪世义.面向应用型人才能力培养的编译原理教学内容剪裁研究[J].巢湖学院学报,2014,16(6):146-150. 被引量：1
5牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11
6潘其明.电子病历版式化归档与信息抽取的研究[J].中国数字医学,2015,10(2):107-109. 被引量：3
7娄景艺,屈晓旭.一种基于PDF动态标注的远程维修指导系统[J].微型机与应用,2015,34(11):89-92.
8胡荣磊,左珮良,蒋华.基于JavaWeb的PDF安全编辑系统的设计与实现[J].北京电子科技学院学报,2015,23(2):68-73. 被引量：1
9李俊,黄红伟,李鑫,刘薇.基于iTextSharp的复杂报表生成技术[J].计算机与网络,2016,42(12):67-69. 被引量：2
10倪晓华.非结构化电子病历信息的抽取[J].中国数字医学,2016,11(12):89-91. 被引量：2

1于成龙.中文网页信息抽取技术及分类算法研究[J].山东理工大学学报（自然科学版）,2011,25(3):108-110.
2张小莉,夏冉,姚建民.浅谈基于XML的web页面信息抽取方法的设计和实现[J].科技风,2008(1):74-74.
3崔春,龚捷.Web信息抽取研究综述[J].电脑知识与技术,2011,7(4):2279-2280. 被引量：2
4沈杰.信息抽取技术面临的挑战及其策略[J].计算机光盘软件与应用,2011(8):3-4.
5卢红杰.基于Web数据的信息抽取技术[J].兰台世界（上旬）,2006(04S):52-53.
6王志军.批量搞定Word文档中的大量图片[J].电脑知识与技术（经验技巧）,2014(3):32-34.
7大江东去.输入公式不用愁用Win 7手写[J].电脑迷,2010(3):72-72.
8史树敏,刘东升.信息抽取与信息检索技术比较研究[J].计算机科学,2006,33(B12):141-145.
9闫俊英.信息抽取技术综述[J].福建电脑,2013,29(5):59-61. 被引量：2
10聂华.基于领域本体的信息抽取方法研究[J].价值工程,2012,31(6):117-117.

计算机与数字工程

2008年第5期

浏览历史

内容加载中请稍等...

基于XSLT的PDF信息抽取技术的研究被引量：7

参考文献5

共引文献1

同被引文献45

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于XSLT的PDF信息抽取技术的研究 被引量：7

参考文献5

共引文献1

同被引文献45

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于XSLT的PDF信息抽取技术的研究被引量：7