基于XML的PDF文档内容与结构的表示的实现被引量：7

Realization on Representation of the Contents and Structure of PDF Documents based on XML

下载PDF

导出

摘要在对网络信息资源进行检索、过滤、提取的过程中,对于文档格式的转换是进行信息处理的必然途径。将PDF文档转换为XML文档,在对分析PDF文档的内容和结构方面具有重要意义。论文介绍了从PDF文档向XML文档转换的设计和实现原理。 Document transformation among different document format is a necessary approach to information retrieval,filtering and extraction.XML Document has been an open standard in the exchange of data in different types and fields in the web.Transformation from PDF to XML is necessary for analysing the contents and structure of PDF documents.This paper discusses design and realization of the document transformation from PDF to XML.

作者葛一兵余智华

机构地区中国科学院计算技术研究所软件研究室

出处《计算机工程与应用》 CSCD 北大核心 2004年第14期120-122,共3页 Computer Engineering and Applications

关键词 PDF XML 文档转换 PDF,XML ,document transformation

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Adobe Systems Incorporatod. PDF Reference third edition,Adobe Portable Document Format Version 1.4
2Extensible Markup Language (XML) 1.0.Second Edition, http://www.w3 .org/TR/REC-xml, 2000-10
3Norbert Fuhr. XML Information Retrieval and Information Extraction.http://ls6-www.informatik.uni-dortmund.de/bib/fulltext/ir/Fuhr: 02a.pdr,2002
4Danny Sullivan et al. Fifth Annual Search Engine Meeting Report[R].Boston, MA, http://websearch.about.com/internet/websearch/library/blsem.htm, 1999-04
5ElliotteRustyHarold著杜大鹏李善茂傅烨译.XML实用大全[M].中国水利水电出版社,2000..

共引文献1

1余露,杨季文,钱培德.科技论文DTD的设计及其XML文档生成[J].信息技术,2002,26(9):18-20. 被引量：6

同被引文献38

1肖天庆,任翔.浅谈SCORM在E-Learning中的地位和作用[J].云南大学学报（自然科学版）,2008,30(S2):253-256. 被引量：6
2何忠平,张爱筠,施伟祥.一种基于Java的PDF文件的生成方法[J].应用科技,2004,31(9):8-9. 被引量：1
3郑河荣,冯晓斐,熊丽荣,王天舟.基于Reed-Solomon算法的PDF417码纠错研究[J].计算机工程与设计,2004,25(11):1897-1899. 被引量：4
4宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
5王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
6莫佳.Web数据表现和处理彻底分离的研究与实现[J].计算机工程与设计,2006,27(9):1642-1644. 被引量：3
7陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
8Adobe Systems Incorporated.PDF Reference,fifth edition,Adobe Portable Document Format Version 1.6[M].America:Adobe Press,2004:9-18.
9Mathew Hardy,David F Brailsford,Peter Thomas.Creating structured PDF files using XML templates[C].America:ACM Press,2004.
10Mathew R B Hardy,David F Brailsford.Mapping and displaying structural transformations between XML and PDF[C].America:ACM Press,2002.

引证文献7

1王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
2刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
3昌磊,陆阳,吴雷.PDF文档的跨终端发布技术[J].计算机工程与应用,2014,50(22):158-162.
4赵洪利,王南松,王志立.S1000D标准下数据模块发布样式的研究[J].计算机测量与控制,2015,23(3):917-920. 被引量：3
5郭庆,江波,赵洪利.S1000D数据模块发布技术的研究与应用[J].计算机测量与控制,2015,23(11):3853-3856.
6郭庆,江波.S1000D数据模块的SCORM数据包发布样式研究[J].计算机测量与控制,2015,23(12):4097-4101.
7王臻,侯震.浅谈计算机网络中PDF打印方案的实现[J].科技致富向导,2010,0(12Z):126-126.

二级引证文献11

1陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
2刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
3李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10
4李兰友,陈立,谢雪莲.面向Web的PDF文档构建技术[J].计算机与现代化,2013(12):184-187. 被引量：4
5林青,李健.PDF文档HTML化中文本重排问题研究[J].电脑与信息技术,2014,22(3):27-30.
6郭庆,江波,赵洪利.S1000D数据模块发布技术的研究与应用[J].计算机测量与控制,2015,23(11):3853-3856.
7郭庆,江波.S1000D数据模块的SCORM数据包发布样式研究[J].计算机测量与控制,2015,23(12):4097-4101.
8于丰畅,陆伟.基于机器视觉的PDF学术文献结构识别[J].情报学报,2019,38(4):384-390. 被引量：11
9魏士礼,钱一彬,刘杰.民用飞机技术出版物插图绘制研究[J].科技资讯,2021,19(20):13-15. 被引量：1
10陈旭东,张水锋,王润泽,杨洪启,王晨宇.基于Python爬虫技术的PDF文件提取与定位系统研究[J].通讯世界,2022,29(11):193-195.

1刘雪飞,吴伯桥,王申强.XML文档与数据库表信息互相转换的方法研究与实践[J].信息安全与技术,2013,4(7):67-69. 被引量：3
2刘利,黄志军,曾斌.利用DOM技术实现XML与数据库映射的中间件[J].计算机与数字工程,2001,29(4):57-60. 被引量：1
3朱青,李建宇,刘宇辉.利用文档树建立XML文档与数据库的映射[J].北京工业大学学报,2006,32(9):859-864. 被引量：3
4郭秀峰,龚文龙.关系数据库到XML文档的转换研究[J].新乡师范高等专科学校学报,2005,0(5):32-34.
5周光明.分布式问题求解评述[J].高性能计算技术,2003,0(3):9-12. 被引量：3
6李晓晖.智能化技术在电气工程自动化控制中的应用[J].科学与财富,2015,7(27):54-55.
7张莉.计算机网络防御技术初探[J].黑龙江科技信息,2010(34):102-102. 被引量：2
8何妍.电子商务环境下企业发展[J].中小企业管理与科技,2015,0(10):3-3.
9李文锋,段红亮.Java实现Word文档到XML文档转换浅析[J].现代计算机,2008,14(3):158-160. 被引量：3
10唐日照.一种用XSLT创建HTML页面的技术探讨[J].长春师范学院学报（自然科学版）,2005,24(1):30-33.

计算机工程与应用

2004年第14期

浏览历史

内容加载中请稍等...

基于XML的PDF文档内容与结构的表示的实现被引量：7

参考文献5

共引文献1

同被引文献38

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于XML的PDF文档内容与结构的表示的实现 被引量：7

参考文献5

共引文献1

同被引文献38

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于XML的PDF文档内容与结构的表示的实现被引量：7