基于流水线负载平衡模型的并行爬虫研究被引量：2

Study on Parallel Crawler Based on Pipeline Load Balancing Model

下载PDF

导出

摘要针对并行爬虫系统在多任务并发执行时所遇到的模块间负载平衡问题,提出流水线负载平衡模型(PLB),将不同的任务抽象为独立模块而达到各模块的处理速度相等,采用多线程的方式实现基于PLB的并行爬虫,根据线程的休眠和缓冲区的变化对线程数量进行动态调整以实现PLB。实验结果表明该方法具有良好的运行效率和稳定性。 This paper proposes a load balancing model named Pipeline Load Balancing（PLB）, to address the load balancing problem among concurrent modules in a parallel crawling system. Different tasks in PLB are implemented as independent modules which have similar processing abilities. Dynamic multi-threading and buffering mechanisms are employed to implement a PLB-based parallel crawler. The number of threads is adjusted according to the changing in buffer size and waiting interval of a thread. Experimental results show that the PLB-based crawler provides high performance as well as good stability.

作者孟祥乾叶允明邓斌

机构地区哈尔滨工业大学深圳研究生院

出处《计算机工程》 CAS CSCD 北大核心 2009年第2期34-36,共3页 Computer Engineering

基金国家自然科学基金资助项目"基于增量学习的主题爬虫关键技术研究"(60603066)

关键词爬虫并行流水线负载平衡 crawler parallel pipeline load balancing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Brin S, Page L. The Anatomy of a Large-scale Hypertextual Web Search Engine[C]//Proc. of the 7th International Conference on World Wide Web. [S. l.]: IEEE Press, 1998.
2Shkapenyuk V, Suel T. Design and Implementation of a High Performance Distributed Web Crawler[C]//Proc. of the 18th International Conference on Data Engineering. California, USA: 2002.
3Boldi P, Codenotti B, Santini M, et al. Crawler[J]. Software: Practice and Experience, 2004, 34(8): 711-722.
4张岭,叶允明,宋晖,于水,马范援.一种高性能分布式Web Crawler的设计与实现[J].上海交通大学学报,2004,38(1):59-61. 被引量：6
5叶允明,于水,马范援,宋晖,张岭.分布式Web Crawler的研究:结构、算法和策略[J].电子学报,2002,30(12A):2008-2011. 被引量：23

二级参考文献7

1[1]Heydon A, Najork M. Mercator: A scalable, extensible Web Crawler[J]. World Wide Web, 1999, 2(4):219-229.
2[2]Pinkerton B. Web Crawler: Finding what people want [D]. Washington: University of Washington, 2000.
3[3]Fredkin E. Trie memory [J]. Communication of ACM, 1960, 26(3):490-500.
4[4]IETF. Robot Exclusion Protocol [EB/OL]. http://www. robotstxt. org/wc/exclusion. html, 2001-10.
5[5]Brin S, Page L. the anatomy of a large-scale hypertexual web search engine [A]. Proceeding of the WWW7 Conference [C]. Australia: Elsevier, 1998.107-117.
6Allan Heydon,Marc Najork. Mercator: A scalable, extensible Web crawler[J] 1999,World Wide Web(4):219～229
7刘济波,朱培栋.WWW大规模cache技术[J].现代计算机,1998(6):8-10. 被引量：1

共引文献26

1何晓阳,吴治蓉,连丽红.Google算法认识中易产生的几个误区[J].数字图书馆论坛,2005(8):37-38.
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
3赵新慧.搜索引擎中基于Bayes分类的网页更新研究[J].交通与计算机,2005,23(5):63-65.
4付东来,李元.Web多媒体数据实时索引的设计与实现[J].计算机与数字工程,2006,34(3):16-19.
5刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报（自然科学版）,2006,23(3):59-62. 被引量：15
6张洪斌,危胜军.基于超图的并行信息采集系统任务划分方法[J].广西师范大学学报（自然科学版）,2008,26(1):212-215.
7吐尔洪.吾司曼,维尼拉.木沙江.维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现[J].新疆大学学报（自然科学版）,2009,26(1):103-106. 被引量：2
8李广丽.基于网页内容评价和Web图的启发式垂直搜索策略的设计[J].情报理论与实践,2009,32(9):121-124. 被引量：3
9白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
10许笑,张伟哲,张宏莉,方滨兴.广域网分布式Web爬虫[J].软件学报,2010,21(5):1067-1082. 被引量：25

同被引文献9

1Cafarella M J, Madhavan J, Halevy A. Web-scale extraction of structured data [J]. SIGMOD Record, 2008, a7 (4): 55-61.
2许笑.分布式Web信息采集关键技术研究[D].哈尔滨:哈尔滨工业大学,20011:28-31.
3梁根,秦勇,郭小雪,梁活民.基于动态多处理节点的分布式系统任务调度[J].计算机工程,2009,35(9):31-33. 被引量：5
4白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
5王春娟,董丽丽,贾丽.Web集群系统的负载均衡算法[J].计算机工程,2010,36(2):102-104. 被引量：45
6刘爽,姜春祥,张伟哲,李东,张鸿.基于GNP算法的分布式爬虫调度策略[J].计算机应用研究,2010,27(2):446-449. 被引量：5
7李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81. 被引量：6
8金凡,顾进广.一种改进的T-Spider分布式爬虫[J].微电子学与计算机,2011,28(8):102-104. 被引量：3
9柳少锋,董剑,吴智博.一种基于优先级队列的集群动态反馈调度算法[J].智能计算机与应用,2012,2(4):78-80. 被引量：6

引证文献2

1范珊珊,李石君.基于优先级队列的分布式多主题爬虫[J].计算机工程与设计,2015,36(6):1630-1636. 被引量：6
2鲁震霆,刘磊.企业工商注册信息自动搜集软件的性能设计与实现[J].信息通信,2015,28(9):161-162.

二级引证文献6

1吕佩.基于优先级排队算法的改进型串口服务器设计[J].工业技术创新,2016,3(3):422-426. 被引量：1
2周亦,周明全,王学松,黄友良.大数据环境下历史人物知识图谱构建与实现[J].系统仿真学报,2016,28(10):2560-2566. 被引量：17
3罗娇敏,耿茜.一种基于Redis的分布式爬虫系统设计与实现[J].软件,2017,38(10):83-87. 被引量：5
4王军.基于优先级队列算法设计分析与实现[J].福建电脑,2018,34(10):18-20.
5鲍薇.爬虫技术在互联网领域的应用探索[J].电脑迷,2017(10):109-109. 被引量：2
6舒万畅.爬虫技术在大数据领域中的应用分析[J].科学技术创新,2018(36):91-92. 被引量：7

1朱志,朱义,邢春晓.一种基于中间件的自适应动态负载平衡方法[J].计算机工程与应用,2004,40(34):71-74. 被引量：2
2陆桑璐,谢立.基于簇结构的负载平衡模型──簇平衡[J].计算机研究与发展,1998,35(9):824-829. 被引量：5
3贾海龙,曹琨.RFID中间件负载平衡模型的设计与研究[J].软件（教育现代化）（电子版）,2012,2(4):18-19.
4魏利峰,左明,王志晓,刘二永.一个基于集群的Web服务器负载平衡模型[J].计算机工程,2005,31(10):116-118. 被引量：7
5刘耀东.用FoxPro 2.5 FOR DOS的API应用库NETWARE.PLB在Novell NetWare网上进行事务处理[J].电脑编程技巧与维护,1995(4):55-57.
6陈云芳,王汝传.基于CORBA的负载平衡模型的研究与实现[J].计算机工程,2004,30(10):183-186.
7田俊峰,刘玉玲,杜瑞忠.具有冗余结构的分布式数据库服务器及其负载平衡模型[J].中国工程科学,2004,6(6):35-42. 被引量：2
8李玉福,李胜利.一种基于CORBA的可适应的负载平衡模型[J].华中科技大学学报（自然科学版）,2001,29(12):84-86. 被引量：3
9谢枫平.基于多agent强化学习的语义Web爬虫设计[J].漳州师范学院学报（自然科学版）,2010,23(4):63-68.
10李冠辰.一个基于hadoop的并行社交网络挖掘系统[J].软件,2013,34(12):127-131. 被引量：10

计算机工程

2009年第2期

浏览历史

内容加载中请稍等...

基于流水线负载平衡模型的并行爬虫研究被引量：2

参考文献5

二级参考文献7

共引文献26

同被引文献9

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于流水线负载平衡模型的并行爬虫研究 被引量：2

参考文献5

二级参考文献7

共引文献26

同被引文献9

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于流水线负载平衡模型的并行爬虫研究被引量：2