期刊文献+

基于Heritrix的web信息抽取优化与实现 被引量:5

Information Extraction Optimization Based on Heritrix Web
下载PDF
导出
摘要 针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度.实验表明本文的优化技术可行. The main disadvantage of Heitrix is the slow crawling speed,which affects the information search speed seriously.The paper utilizeD the ELFHash to optimize the multi-threads of Heritrix,in order to improve the speed of crawling the web page.Experimental results show that this optimization technique is feasible.
作者 吴伟 陈建峡
出处 《湖北工业大学学报》 2012年第2期23-26,共4页 Journal of Hubei University of Technology
关键词 多线程 HERITRIX WEB信息抽取 multithread Heritrix web information extractio
  • 相关文献

参考文献4

二级参考文献44

  • 1李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量:23
  • 2邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量:23
  • 3吴振慧.Web信息抽取的研究[J].电脑知识与技术,2006(12):21-21. 被引量:1
  • 4Lawrence S, Giles C L. Searching the world wide web [J]. Science, 1998, 280 (4): 98-100,
  • 5Grishman R, Sundheim B. message Understanding Conference on Computational Linguistics COLING - 96, 1996 - 08.
  • 6http://www.cymfony.com/index.html[EB]. 2007. 5
  • 7http://www.bhasha.com/[EB].2007.5.
  • 8http://www.linguamaties.com/index.html [EB].2007. 5.
  • 9http://www.revsolutions.com/index.html [EB]. 2007. 5.
  • 10http: //www. itl. nist. gov/iad/894.01/tests/ace [ EB ]. 2007. 5.

共引文献19

同被引文献36

  • 1黄知义,周宁.Google搜索引擎的PageRank技术及其优化研究[J].图书馆学研究,2005(8):21-23. 被引量:1
  • 2Nandigam J, Gudivada V N, Hamou-L A. Learning SoftwareEngineering Principles Using Open Source Software [ C]//Proc of the 38th Frontiers in Edueation Conference? 2008 :S3H-18-S3H-23.
  • 3Lucene[EB/OL]. [2012-08-01]. http://baike. baidu. com/view/371811. htm.
  • 4Zhang Yong,Li Jian-lin. Research and Improvement of SearchEngine Based on LuceneCC]//Proc of Intelligent Human-Ma-chine Systems and Cybernetics,2009:270-273.
  • 5Huang Lan. A Suervery on Web Information Retrieval Tech-nologies[R]. State University of New York, Department ofComputer Science ECSL, Technical Report TR-120,2000.
  • 6郑家恒.中文文本歧义切分技术研究[M].北京:清华大学出版社,1999.
  • 7Lucene Open Source Material[EB/OL]. [2012-08-01]. http://jakarta. apache, org/lucene.
  • 8Dean J. Blog theory: Feedback and capture in the cir- cuits of drive[M]. New Jersey: John Wiley Sons Inc,2013.
  • 9Cohen E, Kaplan H, Milo T. I.abeling dynamic XML trees[J]. SIAM Journal on Computing, 2010, 39(05) : 2 048-2 074.
  • 10Meier R. Professional Android 4 application develop- ment[M]. New Jersey John Wiley b- Sons, Inc., 2012.

引证文献5

二级引证文献20

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部