绿色网络PDF提取系统被引量：1

PDF Extraction System of Green Network

下载PDF

导出

摘要随着信息技术迅猛发展，很多不良信息与文化通过PDF文档传播，而传统的提取PDF内容的方法无法适应绿色网络提供优质内容并过滤不良PDF的社会需求。文中提出通过建立层次关键字自动机快速提取PDF内容并过滤不良PDF内容的方法。在提取准确性基本相同的情况下，文中方法提升了绿色网络系统提取PDF文档的速度，所用的时间仅为PDFBox方法的16％-36％，并能提供更好地过滤不良PDF的服务。 With the rapid growth of Internet, a lot of unhealthy information and culture spread through the PDF file, traditional PDF ex- traction algorithm cannot adapt to the requirement of green network to provide quality content and filter undesirable PDF. A new method that extracts PDF content and filters undesirable PDF through establishing keyword automata is proposed. With the approximately equal extraction accuracy, the new method can enhance the speed of the green network system to extract the PDF document, the extraction time is only 16% to 36% of PDFBox,and provide better service to filter undesirable PDF file.

作者龙珑邓伟覃晓

机构地区广西师范学院计算机与信息学院广西肿瘤防治研究所

出处《计算机技术与发展》 2014年第1期204-207,共4页 Computer Technology and Development

基金国家创新基金项目(10C26224504901) 国家自然科学基金资助项目(81260319) 广西自然科学基金项目(2011GXNSFB0180825)

关键词绿色网络自动机提取信息不良内容PDF 过滤 green network automata extracting information undesirable PDF filter

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10
2宁葵,龙珑,覃晓,钟智,苏毅娟,陈万雷,宁德鹏.绿色网络不良内容语义分析方法研究[J].计算机应用研究,2010,27(12):4643-4645. 被引量：7
3王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
4宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
5郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
6张晓孪,王西锋.基于概念图的汉语语义计算的研究与实现[J].计算机工程与应用,2011,47(10):120-123. 被引量：10
7李贵林,李建中,杨艳.用Plug-in实现对PDF文件的信息提取[J].计算机应用,2003,23(2):110-112. 被引量：16
8杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：15
9张秀秀,张立峰.PDF文件文本内容提取研究[J].科技情报开发与经济,2008,18(36):118-120. 被引量：16
10杨道良.面向对象的中文PDF阅读器的设计与实现[J].计算机应用,1999,19(6):1-4. 被引量：13

二级参考文献69

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2王琳琳.PDF文件格式及其在图书馆中的应用[J].现代情报,2005,25(6):89-90. 被引量：5
3严建伟,梁力,刘勇.基于分组认证和协作的网格计算安全体系[J].计算机应用研究,2005,22(8):105-107. 被引量：3
4宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
5王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7郭文强,赵玉章,韩莉英.面向PDF文档的安全电子邮件系统[J].计算机应用研究,2007,24(2):151-154. 被引量：2
8陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007(2):18-23. 被引量：9
9陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
10陈云榕,刘立柱,叶晗.PDF文档中JPEG图像的自动提取技术研究[J].信息工程大学学报,2007,8(2):213-216. 被引量：2

共引文献93

1李慧.PDF文档与多媒体电子图书[J].晋图学刊,2001(1):23-25. 被引量：1
2肖守柏.IEEE批量上传解析PDF方案设计[J].生物技术世界,2013,10(3):169-169.
3李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
4顾兆军,张俊.PDF文件链接信息提取与修改[J].计算机工程,2005,31(B07):187-188. 被引量：3
5宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
6王津涛,康晓东,李玫,王冬梅,赵强.PDF文件中可识别图像的提取[J].计算机工程与设计,2006,27(9):1539-1541. 被引量：8
7陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
8刘平,廖兆存,于俊清.科技文档对象在标签PDF中的表示研究[J].计算机工程与设计,2007,28(13):3198-3200.
9郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
10王学忠,肖斌.编程直接生成PDF文档的方法与实现[J].科技信息,2008(14):39-41. 被引量：9

同被引文献13

1宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
2陈云榕,刘立柱,丁志鸿.PDF文件中关键信息的提取与组织方法研究[J].计算机工程与设计,2007,28(7):1688-1690. 被引量：12
3Adobe Systems Inc. PDF reference, Adobe portable document format version 1.4.3nd[ EB/OL]. 2001. http://www, adobe. corn/support/down - loads/product, jsp? product = 44& plat- form = Windows ( Accessed Mar. 8,2005 ).
4Lovegrove W S, Brailsford D F. Document analysis of PDF files:methods,results and implications [ J ]. Electronic Publish- ing Origination Dissemination and Design, 1995,8 ( 2/3 ) : 207 -220.
5Yuan Fang,Liu Bo,Yu Ge. A study on information extraction from PDF files[ C ]//Processdings of the 4th international con- ference on advance in machine learning and cybernetics. Ber- lin : Spinger-Verlag ,2005:258-267.
6Chao Hui, Fan Jian. Layout content extraction for PDF docu- ments[ C ]//Proceedings of document analysis systems. Ber- lin : Spinger-Verlag, 2004 : 213 -224.
7张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
8李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638. 被引量：10
9杨道良.面向对象的中文PDF阅读器的设计与实现[J].计算机应用,1999,19(6):1-4. 被引量：13
10赵耀.基于PDF文档的数字化学习资源建设[J].临沂师范学院学报,2011,33(6):125-128. 被引量：2

引证文献1

1牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11

二级引证文献11

1王向东,金玉玕.石炭纪年代地层学研究概况[J].地层学杂志,2000,24(2):90-98. 被引量：27
2胡荣磊,左珮良,蒋华.基于JavaWeb的PDF安全编辑系统的设计与实现[J].北京电子科技学院学报,2015,23(2):68-73. 被引量：1
3张敏,刘建华,谢靖.网络科技信息监测中富文档识别与信息提取技术研究[J].情报科学,2017,35(1):128-132. 被引量：8
4李雪驹,王智广,鲁强.一种规则与SVM结合的论文抽取方法[J].计算机技术与发展,2017,27(10):24-29. 被引量：4
5张海腾,翟洁,冷春霞.电子作业相似性检测技术的研究与实现[J].电子设计工程,2017,25(19):43-45. 被引量：2
6周小玲,章新友,仵倚,刘莉萍,郭永坤.中文文献的循证医学辅助系统需求分析与设计[J].中国数字医学,2018,13(8):43-45.
7谢志庆,张晓天,闫秋艳,胡妍,高淑娟.实现对教育课件关键信息的提取——以“数据库原理”课程为例[J].无线互联科技,2019,16(12):66-69. 被引量：1
8薛欢欢,赵瑞雪,寇远涛,鲜国建.农业中文期刊论文信息自动识别与抽取模型构建及实现[J].情报工程,2019,5(6):46-56.
9黄昇.基于Python的高校电子文档管理系统[J].计算机系统应用,2021,30(4):69-76. 被引量：4
10师子源,李成,王明飞.文档一致性测试系统的研究与设计[J].北京印刷学院学报,2022,30(3):56-60.

1文家朝,杨鸿章.针对PDF的多文件信息抽取的研究与实现[J].凯里学院学报,2016,34(3):95-97. 被引量：1
2牛永洁,薛苏琴.基于PDFBox抽取学术论文信息的实现[J].计算机技术与发展,2014,24(12):61-63. 被引量：11
3吴代文.基于Lucene全文检索应用研究[J].微计算机应用,2011,32(2):62-65. 被引量：2
4欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6
5胡荣磊,左珮良,蒋华.基于JavaWeb的PDF安全编辑系统的设计与实现[J].北京电子科技学院学报,2015,23(2):68-73. 被引量：1
6王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495. 被引量：8
7欧阳辉,禄乐滨.基于证据理论的论文元数据抽取算法研究[J].电子设计工程,2010,18(4):66-69. 被引量：3
8许琦.面向本地数据的插件式全文索引工具软件研究与开发[J].计算机与数字工程,2014,42(8):1431-1435.
9吴代文.Lucene文本分析器的改进[J].信息技术,2011,35(10):62-64.
10信强,刘群华,赵新林,韩峰.红外光幕靶信号采集与调理电路设计[J].电子设计工程,2010,18(4):99-101. 被引量：3

计算机技术与发展

2014年第1期

浏览历史

内容加载中请稍等...

绿色网络PDF提取系统被引量：1

参考文献11

二级参考文献69

共引文献93

同被引文献13

引证文献1

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

绿色网络PDF提取系统 被引量：1

参考文献11

二级参考文献69

共引文献93

同被引文献13

引证文献1

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

绿色网络PDF提取系统被引量：1