期刊文献+

化学主题网络爬虫的设计和实现 被引量:6

Design and Implementation of a Chemistry Focused Web Crawler
下载PDF
导出
摘要 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 The popularity of Web has been growing rapidly in the last few years.However,faced with people's requirements more and more rigorous and prolific,general search engine still can't satisfy personal need accurately. Based on combination of information accumulated in Internet navigator of chemical resources and automatic collection of web crawler,thls article brings forward a structure design model of chemistry focused web crawler based on Widrow-Hoff classifier and verifies its ability.
出处 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页 Computer Engineering and Applications
基金 国家自然科学基金资助项目(编号:20273076)
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器 focused crawler,topic search engine,chemistry focused crawler,Widrow-Hoff classifier
  • 相关文献

参考文献5

  • 1University of Liverpool.Links for Chemists.http://www.liv.ac.uk/Chemistry/Links/links.html,2005-05
  • 2中国科学院过程工程研究所.化学信息门户.http://www.chinweb.com,2005-05
  • 3李晓霞,杨章远,许志宏.Internet化学资源的发展状况与展望[J].计算机与应用化学,1999,16(5):325-326. 被引量:22
  • 4D D Lewis,R E chapire,J P Callan et al.Training algorithms for linear text classifications[C].In:Proc ACM SIGIR,1996
  • 5F Menczer,G Pant,M Ruiz et al.Evaluating topic-driven web crawlers[C].In:Proc ACM SIGIR 2001,2001

二级参考文献4

共引文献21

同被引文献135

引证文献6

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部