期刊文献+

垂直搜索中网页抓取技术的研究 被引量:5

下载PDF
导出
摘要 网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。
作者 陈哲
出处 《科技信息》 2009年第22期I0182-I0182,共1页 Science & Technology Information
  • 相关文献

参考文献2

  • 1王海波,姜吉发,耿晖,白硕,祝明发.XML搜索引擎研究[J].计算机应用研究,2001,18(4):68-71. 被引量:40
  • 2Stephen Soderland. Learning Information Extraction Rules for Semi-Structured and Free Text[J] 1999,Machine Learning(1-3):233~272

二级参考文献8

  • 1[1]XML and Search[EB/OL]. http://www.searchtools.com/related/ xml.html.
  • 2[2]Goxml[EB/OL]. http://www.goxml.com.
  • 3[3]Dongwook Shin, Hyuncheol Jang, Hongglan Jin. BUS: An Effective Indexing and Retrieval Cheme in Structured Documents[Z].
  • 4[4]Roy Goldman, JasonMcHugh, Jennifer Widom. From Semi-structured Data to XML: Migrating the Lore DataModel and Query Language[Z].
  • 5[5]Alin Deutsch, Mary Fernandez, Daniela Florescu. A Query Language for XML[C]. The Eighth International World Wide Web Conference.
  • 6[6]Guidelines for Robot Writers[EB/OL]. Http://info. Webcrawler.com/mak/projects/robots/robots.html.
  • 7[7]Extensible Markup Language (XML)[EB/OL]. Http://www.w3 .org/XML/.
  • 8[8]Jon Bosak, Sun Microsystems. XML, Java, and the Future of the Web[Z].

共引文献39

同被引文献27

引证文献5

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部