基于Web的专用爬虫的研究

The research and design of the specialized spider base on the Web

下载PDF

导出

摘要网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。 The network spider is the nucleus module of full-text search engine system, which achieves the station-specific information retrieval and the specific Web information search. However, the specialized spider is produced while the World Wide Web scale is getting larger and larger. What this article studies is how to establish an effective special spider, which can automatically find and download pages users interested in. The pages include hypertext classifier, distiller, spider＇s basic function, data storage and core algorithm.

作者夏道勋谢晓尧

机构地区贵州省信息与计算科学重点实验室贵州大学计算机科学与技术学院

出处《贵州师范大学学报（自然科学版）》 CAS 2009年第3期92-95,共4页 Journal of Guizhou Normal University：Natural Sciences

关键词专用爬虫 WEB内容挖掘超文本分类器提取器 specialized spider web mnning hypertext classifier distiller

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1陈安.数据挖掘技术及应用[M].北京:科学出版社,2007.
2Margaret H．Dunham.数据挖掘教程[M]．北京：清华大学出版社，2005.
3郭崇慧.数据挖掘教程[M].北京:清华大学出版社,2005.
4闪四清陈茵程雁.数据挖掘[M].北京:清华大学出版社,2003..
5胡涛涛.基于Web的数据挖掘技术[J].太原师范学院学报（自然科学版）,2004,3(4):34-37. 被引量：1
6王卫军付晓江.基于三层体系结构电子政务系统的JSP技术[J].吉林大学学报：信息科学版,2003,21(1):81-91.
7Merry B, Marais P, Gain J. Compression of dense and regular point clouds [J]. Computer Graphics Forum, 2006, 25 (4) :709-716.

二级参考文献2

1[1]Jaideep Srivastava,Robert Cooley, Mukund Deshpande,et al. Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data[J]. Sigkdd Explorations, 2000(2): 325-338
2[2]Chen M S,Park J S,Yu P S. Efficient Data Mining for Path Traversal Patterns in Distributed Systems[J]. Proc. of the 16th IEEE Intern'l Conf. on Distributed Computing Systems,1996(27) :385-392

共引文献38

1韩虎,张莉莉.神经网络方法在数据挖掘中的应用[J].兰州交通大学学报,2004,23(4):88-90. 被引量：3
2毛庆,冯德民,王映辉.电子政务分布式应用集成框架研究[J].计算机科学,2004,31(12):88-91. 被引量：5
3黄维平,吴淦国,何明跃,高金汉,苏尚国,付宗堂.国家化石岩矿标本库数据库网站的设计与实现[J].吉林大学学报（信息科学版）,2005,23(3):316-322. 被引量：4
4周力青.基于JSP技术的教材Web查询系统设计与实现[J].现代图书情报技术,2005(8):84-86. 被引量：2
5贺翔,梁洪峻.数据仓库及其在商业的应用[J].天津职业院校联合学报,2006,8(1):143-144.
6陈华英.数据挖掘项目的特征和关键环节[J].计算机技术与发展,2006,16(9):85-86.
7徐建军.医学影像数据挖掘中的人工神经网络方法研究[J].实用放射学杂志,2006,22(11):1416-1418. 被引量：6
8田兆锋,阎楚良.基于UML和JSP的农业机械化装备信息网络平台[J].吉林大学学报（信息科学版）,2006,24(6):648-655. 被引量：6
9谢嘉,张增敏,潘自强.基于J2EE的变电站设备缺陷数据挖掘系统的设计与实现[J].计算机与现代化,2006(12):42-45.
10张增敏,谢嘉,李长河,隋连升.数据挖掘技术在变电站设备及缺陷管理系统中的应用[J].山东农业大学学报（自然科学版）,2006,37(4):642-646. 被引量：4

1韩国辉,陈黎,梁时木,唐小棚,王亚强,于中华.Nave Bayes分类器制导的专业网页爬取算法[J].中文信息学报,2010,24(4):32-38. 被引量：3
2谢天保,张晓雯,仵凯博.微博社会网络重要用户节点筛选及舆情引导[J].计算机科学,2014,41(S1):400-405. 被引量：10
3范焱,陈恩红,王清毅,蔡庆生,刘洁.超文本协调分类器的性能研究[J].计算机研究与发展,2000,37(9):1026-1031. 被引量：3

贵州师范大学学报（自然科学版）

2009年第3期

浏览历史

内容加载中请稍等...

基于Web的专用爬虫的研究

参考文献7

二级参考文献2

共引文献38

相关作者

相关机构

相关主题

浏览历史