期刊文献+

绿色网络PDF提取系统 被引量:1

PDF Extraction System of Green Network
下载PDF
导出
摘要 随着信息技术迅猛发展,很多不良信息与文化通过PDF文档传播,而传统的提取PDF内容的方法无法适应绿色网络提供优质内容并过滤不良PDF的社会需求。文中提出通过建立层次关键字自动机快速提取PDF内容并过滤不良PDF内容的方法。在提取准确性基本相同的情况下,文中方法提升了绿色网络系统提取PDF文档的速度,所用的时间仅为PDFBox方法的16%-36%,并能提供更好地过滤不良PDF的服务。 With the rapid growth of Internet, a lot of unhealthy information and culture spread through the PDF file, traditional PDF ex- traction algorithm cannot adapt to the requirement of green network to provide quality content and filter undesirable PDF. A new method that extracts PDF content and filters undesirable PDF through establishing keyword automata is proposed. With the approximately equal extraction accuracy, the new method can enhance the speed of the green network system to extract the PDF document, the extraction time is only 16% to 36% of PDFBox,and provide better service to filter undesirable PDF file.
出处 《计算机技术与发展》 2014年第1期204-207,共4页 Computer Technology and Development
基金 国家创新基金项目(10C26224504901) 国家自然科学基金资助项目(81260319) 广西自然科学基金项目(2011GXNSFB0180825)
关键词 绿色网络 自动机 提取信息 不良内容PDF 过滤 green network automata extracting information undesirable PDF filter
  • 相关文献

参考文献11

二级参考文献69

共引文献93

同被引文献13

引证文献1

二级引证文献11

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部