PDF文件信息的抽取与分析被引量：21

Extraction and Analysis of Information from PDF Files

下载PDF

导出

摘要 PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。 PDF files are important resource of Internet information extraction. Based on the analysis of PDF file structure, the article discusses the extraction methods of text and related information such as font, font size and line information from the most popular linearized PDF files. These will contribute to extract the information of PDF files we needed further.'

作者李珍田学东

机构地区河北大学数学与计算机学院

出处《计算机应用》 CSCD 北大核心 2003年第12期145-147,共3页 journal of Computer Applications

基金河北省自然科学基金项目 (6 0 2 1 2 7)

关键词信息抽取 PDF文件文本信息分析 information extraction PDF file analysis of text information

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1杨道良.面向对象的中文PDF阅读器的设计与实现[J].计算机应用,1999,19(6):1-4. 被引量：13
2张砚,闪永强.关于PDF与跨平台发行文件的解决方案[J].测绘学院学报,2003,20(1):62-64. 被引量：3
3李贵林,李建中,杨艳.用Plug-in实现对PDF文件的信息提取[J].计算机应用,2003,23(2):110-112. 被引量：16

二级参考文献10

1万博审. 图形图象文件格式大全[M]. 北京:学苑出版社,1994.
2丁一.PDF技术的拓展范畴（上）[J].印艺,1999,(8).
3丁一.PDF技术的拓展范畴（下）[J].印艺,1999,(9).
4丁一.PDF如何改造文件的世界[J].印艺,2000,(1).
5Kin. 编辑/加工Acrobat文档[EB/OL]. http//www.5dmedia.com.
6小虫.PDF技术—综述篇[J].印艺,2000,(1).
7Losia. Adobe力推的ePaper解决方案[EB/OL]. http// www.5dmedia.com.
8保护Adobe PDF文档的安全及使用数字签名[EB/OL]. http// www.adobe.com.cn.
9Adobe PDF[EB/OL]. http// www.adobe.com.cn.
10肖明.PDF文档的阅读与生成工具[J].电子与电脑,2000,7(1):62-65. 被引量：6

共引文献25

1李慧.PDF文档与多媒体电子图书[J].晋图学刊,2001(1):23-25. 被引量：1
2顾兆军,张俊.PDF文件链接信息提取与修改[J].计算机工程,2005,31(B07):187-188. 被引量：3
3宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
4王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
5张彬.网络共享资源的载体——PDF文档[J].湖南科技学院学报,2006,27(5):168-172. 被引量：7
6姜琳.PDF文档及其在网络环境下图书馆中的应用[J].现代情报,2007,27(5):218-219.
7刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
8王学忠,肖斌.编程直接生成PDF文档的方法与实现[J].科技信息,2008(14):39-41. 被引量：9
9褚纪红,云宪明,左宏良.一种实现PDF文档加密的方法[J].情报杂志,2009,28(B12):168-169.
10李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10

同被引文献153

1刘真,石教英,彭浩宇,秦爱红.基于PC集群并行图形绘制系统综述[J].系统仿真学报,2006,18(z1):70-72. 被引量：11
2方卫东,袁华,刘卫红.基于Web挖掘的领域本体自动学习[J].清华大学学报（自然科学版）,2005,45(S1):1729-1733. 被引量：31
3郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
4何忠平,张爱筠,施伟祥.一种基于Java的PDF文件的生成方法[J].应用科技,2004,31(9):8-9. 被引量：1
5张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J].现代图书情报技术,2004(6):1-5. 被引量：26
6贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3
7葛一兵,余智华.基于XML的PDF文档内容与结构的表示的实现[J].计算机工程与应用,2004,40(14):120-122. 被引量：7
8李颖新,刘全金,阮晓钢.多发性骨髓瘤基因表达谱分析[J].北京工业大学学报,2004,30(3):286-289. 被引量：2
9孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
10白剑,徐迎晖,杨榆.利用文本载体的信息隐藏算法研究[J].计算机应用研究,2004,21(12):147-148. 被引量：12

引证文献21

1肖守柏.IEEE批量上传解析PDF方案设计[J].生物技术世界,2013,10(3):169-169.
2王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
3刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
4郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
5王学忠,肖斌.编程直接生成PDF文档的方法与实现[J].科技信息,2008(14):39-41. 被引量：9
6化柏林,张新民.从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J].情报科学,2010,28(2):311-315. 被引量：16
7褚纪红,云宪明,左宏良.一种实现PDF文档加密的方法[J].情报杂志,2009,28(B12):168-169.
8王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
9支策,马兆丰,蒋铭,钮心忻,杨义先.基于数字水印的PDF完整性认证研究[J].信息安全与通信保密,2012,10(10):63-66. 被引量：2
10魏宏安,陈忠辉.电纸书PDF阅读器的设计与实现[J].福州大学学报（自然科学版）,2012,40(6):754-758. 被引量：1

二级引证文献72

1陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
2刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
3郭怀德,张明,杨浩,唐晓娜.电网建设项目环保管理信息系统的开发与应用[J].电力环境保护,2009,25(4):6-8. 被引量：3
4郑金龙,朱亚玲,李华.PDF在电子政务上的应用[J].兰州工业高等专科学校学报,2009,16(6):1-4. 被引量：1
5赵电波.PDF文件在录井实时打印中的应用[J].录井工程,2010,21(1):58-60. 被引量：1
6李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10
7艾华,孟繁疆,李勇,孙军.基于PDF的文献管理软件的开发[J].煤炭技术,2010,29(7):234-235.
8丁君军,郑彦宁,化柏林.国内外属性抽取研究综述[J].情报科学,2011,29(5):793-796. 被引量：9
9胡浩杰,魏斌,杨春成,祁学红.PDF地图标注批量输出的方法[J].测绘科学技术学报,2011,28(5):378-382. 被引量：2
10郑彦宁,化柏林.句子级知识抽取在情报学中的应用分析[J].情报理论与实践,2011,34(12):1-4. 被引量：17

1化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：38
2高楚舒,丁于思.因特网中文文本信息分析[J].合肥工业大学学报（自然科学版）,2001,24(z1):751-754.
3宋鑫莹,赵铁军.网络信息抽取技术分析与比较[J].智能计算机与应用,2013,3(5):24-27. 被引量：3
4施洋,张奇,黄萱菁.含有语义特征的网页新闻自动抽取[J].计算机工程,2010,36(7):173-175. 被引量：5
5史西兵,王浩鸣.隐马尔可夫模型解决信息抽取问题的仿真研究[J].计算机仿真,2010,27(5):132-135. 被引量：5
6王毅.基于web的信息抽取方法研究[J].科技与生活,2010(13):11-11.
7俞琰.基于隐马尔可夫模型的招聘网络信息抽取[J].自动化技术与应用,2008,27(10):58-61.
8俞琰.基于隐马尔可夫模型的招聘网络信息抽取[J].北京电子科技学院学报,2008,16(4):93-98. 被引量：6
9于龙,尹浩.站点主题结构与导航归纳技术[J].国防科技大学学报,2012,34(5):90-95. 被引量：1
10赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：50

计算机应用

2003年第12期

浏览历史

内容加载中请稍等...

PDF文件信息的抽取与分析被引量：21

参考文献3

二级参考文献10

共引文献25

同被引文献153

引证文献21

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

PDF文件信息的抽取与分析 被引量：21

参考文献3

二级参考文献10

共引文献25

同被引文献153

引证文献21

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

PDF文件信息的抽取与分析被引量：21