期刊文献+

基于XSLT的PDF信息抽取技术的研究 被引量:7

Research on PDF Information Extraction Technology Based on XSLT
下载PDF
导出
摘要 以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统。首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取。测试结果表明,系统的抽取效果良好,并具有较强的扩展性。 Information extraction of PDF Document is a necessary approach to information processing. Choosing XML as information display model and XSLT as information extraction rule, this paper propose a system of PDF Information Extraction based on scientific and technological article. The fundamental thought can be expressed as follows : converting the PDF - formatted document to a XML - formatted middle document first, then applying XSLT rules to the middle document according to its description on text, location and display. Good results from the system, and has a strong scalability.
出处 《计算机与数字工程》 2008年第5期156-159,共4页 Computer & Digital Engineering
基金 福建省高等学校科技项目"数字图书馆资源整合与分类技术的研究(编号:JA04164)"资助
关键词 信息抽取 PDF XML XSLT information extraction, PDF, XML, XSLT
  • 相关文献

参考文献5

  • 1Adobe Portable Document Format Version 1.6 [ K/ OL] [ 2006 - 11 - 12 ]. http ://www. adobe.com/devnet/pdf/ pdfs/PDFReference16. pdf
  • 2Ann Navarro.周生炳等译.XML从入门到精通[M].北京:电子工业出版社,2002
  • 3Pdftohtml-0. 39[CP/OL] [2007-01 -13]. http ://sourceforge. net/projects/pdftohtml/
  • 4Khun Yee Fung.XSLT精要从XML到HTML[M].北京:清华大学出版社,2002.
  • 5Jussi Myllymaki. Effective Web Data Extraction with Standard XML Technologies [ J/OL]. IBM Research Report, 2002 [ 2006 - 12 -24], http://www10.org/cdrom/papers/ pdf/pl02. pdf

共引文献1

同被引文献45

引证文献7

二级引证文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部