期刊文献+

基于Web的专用爬虫的研究

The research and design of the specialized spider base on the Web
下载PDF
导出
摘要 网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。 The network spider is the nucleus module of full-text search engine system, which achieves the station-specific information retrieval and the specific Web information search. However, the specialized spider is produced while the World Wide Web scale is getting larger and larger. What this article studies is how to establish an effective special spider, which can automatically find and download pages users interested in. The pages include hypertext classifier, distiller, spider's basic function, data storage and core algorithm.
出处 《贵州师范大学学报(自然科学版)》 CAS 2009年第3期92-95,共4页 Journal of Guizhou Normal University:Natural Sciences
关键词 专用爬虫 WEB内容挖掘 超文本分类器 提取器 specialized spider web mnning hypertext classifier distiller
  • 相关文献

参考文献7

  • 1陈安.数据挖掘技术及应用[M].北京:科学出版社,2007.
  • 2Margaret H.Dunham.数据挖掘教程[M].北京:清华大学出版社,2005.
  • 3郭崇慧.数据挖掘教程[M].北京:清华大学出版社,2005.
  • 4闪四清 陈茵 程雁.数据挖掘[M].北京:清华大学出版社,2003..
  • 5胡涛涛.基于Web的数据挖掘技术[J].太原师范学院学报(自然科学版),2004,3(4):34-37. 被引量:1
  • 6王卫军 付晓江.基于三层体系结构电子政务系统的JSP技术[J].吉林大学学报:信息科学版,2003,21(1):81-91.
  • 7Merry B, Marais P, Gain J. Compression of dense and regular point clouds [J]. Computer Graphics Forum, 2006, 25 (4) :709-716.

二级参考文献2

  • 1[1]Jaideep Srivastava,Robert Cooley, Mukund Deshpande,et al. Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data[J]. Sigkdd Explorations, 2000(2): 325-338
  • 2[2]Chen M S,Park J S,Yu P S. Efficient Data Mining for Path Traversal Patterns in Distributed Systems[J]. Proc. of the 16th IEEE Intern'l Conf. on Distributed Computing Systems,1996(27) :385-392

共引文献38

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部