高性能并行爬行器被引量：7

High performance parallel crawler

下载PDF

导出

摘要爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。 A web crawler is an important component of a search engine for information gathering, but its design is not well-documented in the literature. Chao is introduced in detail, which is a high performance parallel crawler, including its overall architecture, major components, working process and two core algorithms, scheduling and URL indexing. The scheduling algorithm using double hashing nOt only realizes load balance, but also avoids collision. The URL indexing algorithm based on tree searching, achieving both a fast searching speed and a significantly low storage requirement.

作者蒋宗礼赵钦肖华王蕊

机构地区北京工业大学

出处《计算机工程与设计》 CSCD 北大核心 2006年第24期4762-4766,共5页 Computer Engineering and Design

关键词搜索引擎信息采集爬行器并行检索 search engine information gathering crawler parallel retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Junghoo Cho,Hector Garcia-Molina.Parallel crawlers[C].Honolulu:Proceedings of the 11 th International World Wide Web Conference,ACM Press,2002.124-135.
2Sergey Brin,Lawrence Page.The anatomy of a large-scale hypertextual web search engine[J].Computer Networks and ISDN Systems,1998,30:107-117.
3Allan Heydon,Marc Najork.Mercator:A scalable,extensible web crawler[J].World Wide Web,1999,(2):219-229.
4Marc Najork,Janet L Wiener.Breadth-first search crawling yields high quality pages[C].Hong Kong:Proceedings of 10th International World Wide Web Conference,ACM Press,2001.114-118.
5Paolo Boldi,Bruno Codenotti,Massimo Santini,et al.UbiCrawler:A scalable fully distributed web crawler[J].Software:Practice and Experience,2004,34(8):711-726.
6George Samaras,Odysseas Papapetrou.Distributed location aware web crawling[C].New York,USA:Proceedings of the 13th international World Wide Web conference,ACM Press,2004.468-469.
7Boon Thau Loo,Sailesh Krishnamurthy,Owen Cooper.Distributed web crawling over DHTs[R].UC Berkeley Technical Report UCB//CSD-4-1305,2004.
8Marc Najork,Allan Heydon.High-performance web crawling[C].Handbook of Massive Data Sets,Kluwer Academic Publishers Inc,2001.25-45.
9Kasom Koht-arsa,Surasak Sanguanpong.High performance large scale web spider architecture[EB/OL].http://anres.cpe.ku.ac.th/pub/thesis-spider.pdf.
10Carlos Castillo,Mauricio Marin,Andrea Rodriguez,et al.Scheduling algorithms for web crawling[C].Brazil:WEBMEDIA and LA-WEB,IEEE Cs Press,2004.10-17.

二级参考文献9

1Cormen TH,Leiserson CE.Introduction to Algorithms.2nd ed.,Cambridge:MIT Press,2001.221-252.
2Knuth DE.Sorting and Searching,Volume 3 of the Art of Computer Programming.New York:Addison-Wesley,1973.506-549.
3McKenzie BJ,Harries R,Bell T.Selecting a hashing algorithm.Software Practice and Experience,1990,20(2):208-210.
4Tong MCF.General hashing [Ph.D.Thesis].Computer Science Department,University of Auckland,1996.
5Peter K.Pearson,fast hashing of variable length text strings.Communications of the ACM,1990,33(6):676-678.
6Berners-Lee T.Universal resource locator.2003.http://www.w3.org/Addressing/URL/Overview.html
7Yan HF,Wang JY,Li XM,Guo L.Architectural design and evaluation of an efficient Web-crawling system.Journal of System and Software,2002,60(3):185-193.
8Shaffer CA.Zhang M,Liu XD,Trans.Data Structure and Algorithm Analysis.Beijing:Publishing House of Electronics Industry,1998.211-213(in Chinese).
9ShafferCA 著张铭刘晓丹译.数据结构与算法分析[M].北京:电子工业出版社,1998.211-213.

共引文献44

1张智江,王志军,张尼.一种可应用于大流量环境的双层散列算法研究[J].电信科学,2011,27(S1):280-284.
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
3燕彩蓉,彭勤科,沈钧毅,武红江.基于两阶段散列的Web集群服务器内容分配研究[J].西安交通大学学报,2005,39(8):812-815. 被引量：5
4李玉玲.厦门高校学生对本地就业意愿的调查[J].中国大学生就业,2005(16):37-38. 被引量：1
5詹川,卢显良,侯孟书,邢茜.一种快速的基于URL的垃圾邮件过滤系统[J].计算机科学,2005,32(8):55-56. 被引量：3
6徐凤刚,许俊奎,潘清.可扩展Hash方法的一种改进算法[J].计算机工程与应用,2006,42(4):95-97. 被引量：3
7肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量：3
8吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量：8
9孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
10高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13

同被引文献78

1刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
2余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
3印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
4刘畅,张辉.一种应用于搜索引擎的索引结构研究[J].计算机与数字工程,2005,33(9):41-44. 被引量：2
5沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
6吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量：8
7高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
8杨天奇,周晔.一种增量式并行Web信息采集方法[J].计算机工程,2006,32(20):97-99. 被引量：5
9李大高,程显毅.一种基于Agent复合学习的搜索引擎模型[J].现代电子技术,2007,30(4):100-102. 被引量：1
10张三峰,吴国新.一种面向动态异构网络的容错非对称DHT方法[J].计算机研究与发展,2007,44(6):905-913. 被引量：1

引证文献7

1梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
2周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：89
3许笑,张伟哲,张宏莉,方滨兴.广域网分布式爬虫中的Agent协同与Web划分研究[J].高技术通讯,2010,20(3):239-245.
4郝孟涛,黄川,刘金刚.检索调研环境自适应抓取算法的研究与实现[J].科学技术与工程,2014,22(1):231-234. 被引量：1
5曹忠,赵文静,.一种优化的网络爬虫的设计与实现[J].电脑知识与技术,2008,0(12Z):2082-2083. 被引量：5
6刘年国,王芬,吴家奇,李雪,陶涛.基于Counting Bloom Filter的海量网页快速去重研究[J].安徽电气工程职业技术学院学报,2016,21(3):92-97.
7吴家奇,刘年国,李雪,谢翔,王涛.基于Counting Bloom Filter的海量网页快速去重研究[J].电力大数据,2018,21(12):37-42. 被引量：1

二级引证文献103

1王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
2金婵鸣,徐东平.搜索引擎系统中网页抓取模块研究[J].现代计算机,2010,16(3):36-39.
3龚秋艳,陈良育,曾振柄.简单高效的URL消重的方法[J].计算机应用,2010,30(A01):49-50. 被引量：2
4彭赓,范明钰.基于改进网络爬虫技术的SQL注入漏洞检测[J].计算机应用研究,2010,27(7):2605-2607. 被引量：19
5李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81. 被引量：6
6张旭,张振江,刘云.BBS舆情系统爬虫模块的研究[J].铁路计算机应用,2010,19(12):18-21. 被引量：7
7秦学勇.基于互联网资源的学科Ontology构建研究[J].廊坊师范学院学报（自然科学版）,2011,11(2):21-23.
8李晓鑫.XiaoQBot网络爬虫设计与实现[J].硅谷,2011,4(13):62-63.
9于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
10陈秀芳.网站恶意性评估系统的设计与实现[J].计算机时代,2011(7):24-26.

1周晓,胡以华,陈修桥,赵海燕.混沌遗传算法及其在函数优化中的应用[J].计算机与数字工程,2005,33(7):68-70. 被引量：16
2苏炜.关于网络信息采集现状及技术的研究[J].中国电子商务,2012(6):137-137.
3肖祥云.网络信息采集技术探析[J].华中师范大学研究生学报,2011(3):158-163. 被引量：4
4刘洋.探究如何控制网络信息数据采集的质量[J].信息系统工程,2017,30(2):139-139. 被引量：1
5陈巍,吴捷.对一种递归神经网络算法的修正[J].控制理论与应用,1998,15(5):814-816. 被引量：2
6刘桂芳.基于EDA技术的网络信息采集资源的应用[J].内蒙古科技与经济,2008(10):141-141.
7贠晓晴.基于.NET 3.5的网络信息采集系统设计与实现[J].电脑编程技巧与维护,2010(16):73-74. 被引量：1
8刘杰,董淑福,温东,王坤.无线传感器网络节点定位问题研究[J].传感器世界,2012,18(6):23-26. 被引量：2
9屈长青,李艳芳.元搜索引擎的关键技术[J].现代计算机,2004,10(5):17-20. 被引量：11
10李芸,张凯.网络信息采集的难点与解决方案[J].计算机光盘软件与应用,2011(9):76-76. 被引量：1

计算机工程与设计

2006年第24期

浏览历史

内容加载中请稍等...

高性能并行爬行器被引量：7

参考文献13

二级参考文献9

共引文献44

同被引文献78

引证文献7

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

高性能并行爬行器 被引量：7

参考文献13

二级参考文献9

共引文献44

同被引文献78

引证文献7

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

高性能并行爬行器被引量：7