分布式多主题网络爬虫系统的研究与实现被引量：20

Research and Implementation of Distributed and Multi-topic Web Crawler System

下载PDF

导出

摘要提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 This paper proposes an architecture of distributed Web crawler system based on data-trapper. It implements a multi-topic schema based on classics-label, so that one crawler can contain different topics adaptively and designs a two-tiered weighted task partition algorithm that realizes target-guided URL configuration based on Agents＇ load while providing better dynamic scalability. It improves URL storage with Trie tree, which efficiently supports URL search, insertion and repetition judgment.

作者白鹤汤迪斌王劲林

机构地区中国科学院研究生院中国科学院声学研究所国家网络新媒体工程技术研究中心

出处《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页 Computer Engineering

基金国家"863"计划基金资助项目"融合型旅游在线服务业务的研究"(2008AA01A307)

关键词网络爬虫多主题分布式 Web crawler multi-topic distributed

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Rungsawang A, Angkawattanawit N. Learnable Topic-specific Web Crawler[J]. Journal of Network and Computer Applications, 2005, 28(2): 97-114.
2Chakrabhik S, Vandenburg M, Dom B. Focused Crawling: A New Approach to Topic-specific Web Resource Discovery[C]//Proceedings of the 8th International World-Wide Web Conference. Toronto, Canada: [s. n.], 1999.
3Liu Hongyu, MIuOS E, Janssen J. Probabilistic Models for Focused Web Crawling[C]//Proceedings of the 6th Annual ACM International Workshop on Web Information and Data Management. New York, USA: ACM Press, 2004.
4刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：130
5Florescu D, Levy A, Mendelzon A. Database Techniques for the World-Wide Web: A Survey[J]. SIGMOD Record, 1998, 27(3): 59-74.
6Wei Jiying, Wen Jirong. instance-based Schema Matching for Web Databases by Domain-specific Query Probing[C]//Proceedings of the 30th international Conference on VLDB. Toronto, Canada: [s. n.], 2004.
7叶允明,于水,马范援,宋晖,张岭.分布式Web Crawler的研究:结构、算法和策略[J].电子学报,2002,30(12A):2008-2011. 被引量：23
8钱榕,徐新华,郑莹,杨炳儒.智能专题化信息搜集Crawler[J].计算机工程,2006,32(3):57-59. 被引量：4

二级参考文献32

1李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
2Menczer F,Srinivasan G P P,Ruiz M.Evaluating Topic-driven Web Crawlers[C].Proceedings of the 24th Annual International ACM/SIGIR Conference,2001.
3Grama A,Karypis G,Kumar V,et al.Introduction to Parallel Computing (Second Edition)[M].Boston:Addison-Wesley,2003.
4Brin S, Page L. The Anatomy of a Large Scale Hyper Textual Web Search Engine [C]. Proceeding of the WWW7 Conference, Elsevier,Australia, 1998: 107-117.
5杨炳儒.基于内在机理的知识发现理论及应用[M].北京:电子工业出版社,2003..
6王永庆.人工智能原理与方法[M].西安：西安交通大学出版社,1999..
7韩家炜坎伯(加).数据挖掘[M].北京:机械工业出版社,2001.223-259.
8MURRAY B,MOORE A.Sizing the Internet[M].[S.l.]:Cyveillance Inc,2000.
9LAWRENCE S,GILES L.Accessibility and distribution of information on the Web[J].Nature,1999,400(8):107-109.
10CHO J,CARCIA M H.The evolution of the Web and implication for an incremental crawler[C]//Proc of the 26th International Conference on Very Large Databases (NVLDB-00).2000.

共引文献152

1何晓阳,吴治蓉,连丽红.Google算法认识中易产生的几个误区[J].数字图书馆论坛,2005(8):37-38.
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
3赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
4刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报（自然科学版）,2006,23(3):59-62. 被引量：15
5郑煜,钱榕.一个基于链接分析的相关度排序算法及其在专题搜索引擎中应用[J].计算机应用与软件,2007,24(7):54-55. 被引量：5
6张洪斌,危胜军.基于超图的并行信息采集系统任务划分方法[J].广西师范大学学报（自然科学版）,2008,26(1):212-215.
7尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
8曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
9倪贤贵,蔡明.基于链接结构和内容相似度的聚焦爬虫系统[J].计算机工程与设计,2008,29(7):1709-1710. 被引量：3
10王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11

同被引文献251

1李健,曹垚,王宗敏,王广印.融合k-means聚类和Hausdorff距离的散乱点云精简算法[J].武汉大学学报（信息科学版）,2020,45(2):250-257. 被引量：16
2孟陆,刘凤军,陈斯允,段珅.我可以唤起你吗——不同类型直播网红信息源特性对消费者购买意愿的影响机制研究[J].南开管理评论,2020,0(1):131-143. 被引量：245
3谭春林.公众号、视频号与微信群协同推动学术期刊的“主动传播”[J].编辑学报,2021,33(5):549-552. 被引量：34
4刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
5刘凯.信息可视化概念的深入探讨[J].情报杂志,2004,23(12):20-21. 被引量：16
6倪晟,宁洪.基于XML的搜索引擎相关度计算的改进[J].计算机工程与科学,2005,27(2):20-22. 被引量：1
7周俊生,戴新宇,尹存燕,陈家骏.自然语言信息抽取中的机器学习方法研究[J].计算机科学,2005,32(3):186-189. 被引量：8
8王本年,高阳,陈世福,谢俊元.Web智能研究现状与发展趋势[J].计算机研究与发展,2005,42(5):721-727. 被引量：23
9石志伟,刘涛,吴功宜.一种快速高效的文本分类方法[J].计算机工程与应用,2005,41(29):180-183. 被引量：15
10钱榕,徐新华,郑莹,杨炳儒.智能专题化信息搜集Crawler[J].计算机工程,2006,32(3):57-59. 被引量：4

引证文献20

1池勇敏,郝泳涛.分布式主题爬虫的设计与实现[J].计算机应用与软件,2010,27(12):135-138. 被引量：3
2王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
3李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81. 被引量：6
4裴艳霞,刘椿年.面向手机3D动画自动生成的中文命名实体识别[J].计算机工程与应用,2012,48(13):190-195. 被引量：1
5吴建.基于Lucene的校园网搜索引擎的设计与实现[J].湖南工程学院学报（自然科学版）,2012,22(2):48-52. 被引量：1
6杜亚军.多Agent主题爬虫协作策略的研究与分析[J].西华大学学报（自然科学版）,2013,32(1):31-38. 被引量：2
7范珊珊,李石君.基于优先级队列的分布式多主题爬虫[J].计算机工程与设计,2015,36(6):1630-1636. 被引量：6
8王君泽,方醒,杜洪涛.网络舆情分析系统中的支撑技术研究[J].现代情报,2015,35(8):51-56. 被引量：7
9龚千军.基于网络爬虫的多媒体课件下载系统设计与实现[J].电脑编程技巧与维护,2016(9):70-71.
10徐欢潇,徐慧,雷丽婷.多特征分类识别算法融合的网络钓鱼识别技术[J].计算机应用研究,2017,34(4):1129-1132. 被引量：6

二级引证文献157

1方玉婵,梁先锋,褚建勋,安彦青,黄婧晔,陈昕悦,刘益东.社交媒体自然灾害传播中的地域舆论感知差异研究:基于“四川凉山州森林火灾事件”的实证分析[J].中国网络传播研究,2021(4):207-233. 被引量：1
2卢功靖,卢林艳,李媛媛,王成军.基于议题类型的临近预测:使用社交媒体预测新冠肺炎疫情确诊人数[J].中国网络传播研究,2021(4):93-117. 被引量：1
3周金连,王静君.早期参与者的力量:对公共事件微博舆情演化周期的研究[J].中国网络传播研究,2021(1):127-152.
4曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
5朱琳,马佳良.小镇青年的网络舆情生成及演化路径研究——基于微博数据的主题建模与情感分析[J].信息技术与管理应用,2023(4):105-119.
6孙锐,和世华,李祥华,邰先常.基于爬虫技术“雪茄”关注热点的社会化网络及时空演化分析[J].农村经济与科技,2020,31(24):213-216. 被引量：3
7井一龙,倪晓丰,高向辉.全媒体视域下教育舆情的特征、治理困境与对策[J].现代教育管理,2021(11):43-50. 被引量：6
8雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
9朱芷瑶.从“鸡汤”到“反鸡汤”:B站五四青年节系列短片中的情绪传播研究[J].传媒论坛,2023,6(17):59-61. 被引量：1
10李天南,郭风新.抗疫报道产品如何聚起“高流量”与“正能量”[J].传媒论坛,2022,5(13):4-7.

1杨默然,张继山.基于Linux的网络爬虫系统改进研究[J].黑龙江科技信息,2013(9):115-115.
2李小正,成功,赵全军.分布式爬虫系统的设计与实现[J].中国科技信息,2014(15):116-117. 被引量：1
3饶军,华申峰,吴晓璐.关于互联网视听节目监测中网络爬虫的应用研究[J].江西通信科技,2015(3):34-36. 被引量：1
4邹志华,陈玉健,刘强.一种维护WAP网站的网络爬虫的设计[J].微计算机信息,2006,22(07X):52-54. 被引量：2
5袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
6张斌,周尔宁.基于Nutch的分布式纺织垂直搜索引擎研究[J].电脑知识与技术,2009,5(7X):5785-5787. 被引量：3
7杨济运,刘建勋,姜磊,彭桃,文一凭,卢厅.基于协程模型的分布式爬虫框架[J].计算技术与自动化,2014,33(3):126-133. 被引量：5
8王淑芬,高军礼,邹普,宋海涛.基于Hadoop的广域网分布式主题爬虫系统框架[J].计算机工程与科学,2015,37(4):670-675. 被引量：5
9雷滋和,陶宏才.基于ICE的分布式爬虫设计与实现[J].成都信息工程学院学报,2015,30(6):536-540.
10王亚利,李晓静.一种基于SVM的Web信息自动化抽取方法[J].东莞理工学院学报,2012,19(5):53-57.

计算机工程

2009年第19期

浏览历史

内容加载中请稍等...

分布式多主题网络爬虫系统的研究与实现被引量：20

参考文献8

二级参考文献32

共引文献152

同被引文献251

引证文献20

二级引证文献157

相关作者

相关机构

相关主题

浏览历史

分布式多主题网络爬虫系统的研究与实现 被引量：20

参考文献8

二级参考文献32

共引文献152

同被引文献251

引证文献20

二级引证文献157

相关作者

相关机构

相关主题

浏览历史

分布式多主题网络爬虫系统的研究与实现被引量：20