高性能网络爬虫:研究综述被引量：89

Survey of High-performance Web Crawler

下载PDF

导出

摘要网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一。系统地介绍了网络爬虫的工作原理和发展现状,详细地阐述了一个高性能、可伸缩、分布式的网络爬虫的系统架构和所面临的关键问题。 Web Crawlers,one of basic components of Search Engine,are programs to download resources from Internet. We illuminated the work theory of the Web Crawlers, and its development, and how to design a high-performance, scala- ble,distributed Web crawler, including the faced key problem.

作者周德懋李舟军

机构地区北京航空航天大学计算机学院

出处《计算机科学》 CSCD 北大核心 2009年第8期26-29,53,共5页 Computer Science

基金国家自然科学基金项目(60573057 90718017)资助

关键词网络爬虫高性能可伸缩分布式 Crawler, High-performance, Scalability

分类号 TP393.4 [自动化与计算机技术—计算机应用技术] TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献36

1Arasu A, Cho J. Searching the Web[J]. ACM Transactions on Internet Technology, 2001,1 (1) : 2-43.
2Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[A]//Proceedings of the 6th Conference on Symposium on Opear-ting Systems Design & Implementation[C]. San Francisco, CA, 2004: 10-10.
3Ghemawat S, Gobioff H, Leung Shun-Tak. The Google File System[A]//Proeeedings of the 19th ACM Symposium on Operating Systems Principles[C]. 2003:20-43.
4Pike R, Dorward S, Griesemer R. Interpreting the Data:Parallel Analysis with Sawzall [J]. Scientific Programming Journal, 2005,13:277-298.
5Chang F, Dean J, Ghemawat S. Bigtable: A Distributed Storage System for Structured Data[A]//7th USENIX Symposium on Operating Systems Design and Implementation[C]. 2006:205- 218.
6Brin S, Page L. The Anatomy of a Large - scale Hypertextual Web Search Engine[J]. Computer Networks, 1998,30:107-117.
7Burner M. Crawling towards Eternity: Building an Archive of the World Wide Web[J]. Web Techniques Magazine, 1997, 2 (5) : 125-130.
8Boldi P, Codenotti B, Santini M. UbiCrawler: A Scalable Fully Distributed Web Crawler[J]. Software: Practice & Experienee, 2004,34:711-726.
9Lee Hsin- Tsang, Leonard D. IRLbot: Scaling to 6 Billion Pages and Beyond[A]//Proceedings of the 17th International World Wide Web Conference[C]. ACM Press, 2008:427-436.
10We knew the web was big [EB /OL]. http: // googleblog. blogspot, oom/2008/07/we-knew-web-was-big. html,2008-07-25.

二级参考文献76

1李东升,卢锡城.P2P网络中常量度数常量拥塞的DHT方法研究[J].中国科学（E辑）,2004,34(12):1337-1358. 被引量：4
2何克抗余胜泉孙波.网络教育应用“全面解决技术方案”[J].教育技术通信,2002,(4).
3[1]R Botafogo, E Rivlin, B Shneiderman. Structural analysis of hypertext: Identifying hierarchies and useful metrics. ACM Trans on Information System, 1992, 10(2): 142～180
4[2]J Carriere, R Kazman. WebQuery: Searching and visualizing the Web through connectivity. The 6th Int'l WWW Conf (WWW6), Santa Clara, 1997
5[3]Jon M Kleinberg. Authoritative sources in a hyperlinked environment. The 9th Annual ACM-SIAM Symp on Discrete Algorithms, California, 1997
6[4]K Bharat, M R Henzinger. Improved algorithms for topic distillation in a hyperlinked environment. The 21st Int'l ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR 98), Melbourne, 1998
7[5]S Brin, L Page. The anatomy of a large-scale hypertextual web search engine. The 7th Int'l WWW Conf (WWW7), Brisbane, Australia, 1998
8[6]L Page, S Brin .et al.. The pagerank citation ranking: Bringing order to the web. 1998. http://dbpubs.stanford.edu:8090/pub/1999-66
9[7]N Craswell, D Hawking, S E Robertson. Effective site finding using link anchor information. The SIGIR 2001, Louisiana, 2001
10[8]Gao Jianfeng .et al.. TREC-10 Web track experiments at MSRA. The 10th Text Retrieval Conf, Gaithersburg, 2001

共引文献146

1赵旭,陈肖飞.基于Web的高校FTP搜索引擎的技术研究[J].电脑知识与技术（过刊）,2007(22):966-967. 被引量：1
2何文才,张琼,余菲,都婧,焦黎冰.基于树状SVM的网页分类与信息安全过滤系统研究[J].网络安全技术与应用,2008(8):27-29.
3李斌,徐蓉艳.搜索引擎简析[J].扬州教育学院学报,2006,24(3):75-78.
4许君,王朝坤,李瑞,王建民,刘璋.基于内容的分布式FTP搜索引擎的设计与实现[J].计算机研究与发展,2011,48(S3):430-434. 被引量：5
5张智江,王志军,张尼.一种可应用于大流量环境的双层散列算法研究[J].电信科学,2011,27(S1):280-284.
6梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
7苏铓,史国振,李凤华,申莹,黄琼,王苗苗.细粒度超媒体描述模型及其使用机制[J].通信学报,2013,34(S1):223-229. 被引量：1
8陈金阳,蒋建中,李晓静,郭军利,张良胜.FTP文件信息采集过滤系统的研究实现[J].信息工程大学学报,2004,5(4):46-49. 被引量：2
9王爱国,杨波,柴乔林.基于XML Web Service的FTP搜索技术[J].济南大学学报（自然科学版）,2005,19(3):230-234.
10燕彩蓉,彭勤科,沈钧毅,武红江.基于两阶段散列的Web集群服务器内容分配研究[J].西安交通大学学报,2005,39(8):812-815. 被引量：5

同被引文献558

1刘宪权.网络黑灰产上游犯罪的刑法规制[J].国家检察官学院学报,2021(1):3-17. 被引量：40
2周光权.侵犯公民个人信息罪的行为对象[J].清华法学,2021,15(3):25-40. 被引量：101
3李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
4丁晓东.互联网反不正当竞争的法理思考与制度重构——以合同性与财产性权益保护为中心[J].法学杂志,2021(2):70-86. 被引量：37
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
7刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
8吴亮.搜索引擎中网络爬虫的设计[J].决策与信息（财经观察）,2008(7):139-140. 被引量：3
9王宏伟.特大自然灾害的舆情监控研究[J].中国公共安全（学术版）,2008(Z1):11-15. 被引量：5
10曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009,26(2):411-414. 被引量：26

引证文献89

1王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
2金婵鸣,徐东平.搜索引擎系统中网页抓取模块研究[J].现代计算机,2010,16(3):36-39.
3彭赓,范明钰.基于改进网络爬虫技术的SQL注入漏洞检测[J].计算机应用研究,2010,27(7):2605-2607. 被引量：19
4李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81. 被引量：6
5张旭,张振江,刘云.BBS舆情系统爬虫模块的研究[J].铁路计算机应用,2010,19(12):18-21. 被引量：7
6秦学勇.基于互联网资源的学科Ontology构建研究[J].廊坊师范学院学报（自然科学版）,2011,11(2):21-23.
7李晓鑫.XiaoQBot网络爬虫设计与实现[J].硅谷,2011,4(13):62-63.
8于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
9陈秀芳.网站恶意性评估系统的设计与实现[J].计算机时代,2011(7):24-26.
10黄昊晶.聚焦爬虫爬行性能研究[J].科技资讯,2011,9(21):13-14.

二级引证文献537

1师满江,宁志中,曹琦.四川长宁M_(S)6.0地震后民众恢复重建需求特征分析[J].自然灾害学报,2022,31(2):56-65. 被引量：1
2全传发,张斌.油气田企业生产安全风险一体化管控研究[J].中国安全科学学报,2022,32(S02):183-189.
3吴思捷,黄学彬.新冠肺炎疫情背景下基于PSR模型的H省旅游新闻分析[J].新闻研究导刊,2021,12(4):74-76. 被引量：1
4张艳硕,常万里,刘冰.密码应用技术课程5+X教学模式设计[J].北京电子科技学院学报,2020,28(2):53-60. 被引量：7
5毕晟.全球网络空间治理研究现状评析[J].北京电子科技学院学报,2019,0(1):45-54.
6王培霞.基于计算思维培养的高中Python课程教学研究[J].试题与研究,2022(26):73-75. 被引量：1
7蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：79
8袁琦,刘渊,谢振平,陆菁.宠物知识图谱的半自动化构建方法[J].计算机应用研究,2020,37(1):178-182. 被引量：5
9姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
10丁晓东.新型数据财产的行为主义保护:基于财产权理论的分析[J].法学杂志,2023,44(2):54-70. 被引量：27

计算机科学

2009年第8期

浏览历史

内容加载中请稍等...

高性能网络爬虫:研究综述被引量：89

参考文献36

二级参考文献76

共引文献146

同被引文献558

引证文献89

二级引证文献537

相关作者

相关机构

相关主题

浏览历史

高性能网络爬虫:研究综述 被引量：89

参考文献36

二级参考文献76

共引文献146

同被引文献558

引证文献89

二级引证文献537

相关作者

相关机构

相关主题

浏览历史

高性能网络爬虫:研究综述被引量：89