增量更新并行W eb爬虫系统被引量：8

Parallel Web crawler system with increment update

下载PDF

导出

摘要介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。 This paper discussed the architecture of parallel Web crawler system. Incremental crawling method was used to the system to improve the efficiency of massive information updating. Meanwhile, considering the difference of crawler in the system and with the aim of fully usage of crawler in cluster system, Cosine vector parallel crawling model was introduced to solve this problem. After giving the definitions of crawling task vector and crawler vector, relevant parallel crawling algorithms were designed. The results confirm that the system is effective in distribution adaptability and runs well in maintaining the ＂freshness＂ of the Web repository.

作者徐文杰陈庆奎

机构地区上海理工大学计算机与电气工程学院

出处《计算机应用》 CSCD 北大核心 2009年第4期1117-1119,1127,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60573108) 上海教委发展基金资助项目(06QZ00207ZZ92) 上海教委科研创新重点项目(08ZZ76) 上海市重点学科建设项目(s30501)

关键词 Web数据抓取并行爬虫增量更新策略余弦向量法 Web data crawling parallel crawler increment update strategy cosine vector

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1KIM S J, LEE S H. An empirical study on the change of Web pages [ C]// Proceedings of the 7th Asia-Pacific Web Conference on Web Technologies Research and Development: APWeb 2005, LNCS 3399. Heidelberg: Springer-Verlag, 2005:632-642.
2北大网络实验室.Web InfoMall[EB/OL].[2008-08-11].http://www.infomall.cn/.
3CHO J, GARCIA-MOLINA H. Parallel crawlers[ C]// Proceedings of the 11th International Conference on World Wide Web: WWW 2002. New York: ACM Press, 2002: 124- 135.
4孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
5沈文勤,李庆超,邵志清.搜索引擎的渐增式爬行和备份式更新模式[J].华东理工大学学报（自然科学版）,2004,30(3):284-287. 被引量：6
6程菲,汪建海,罗键.增量更新Crawler进行Web收集方法研究[J].计算机工程与科学,2006,28(12):28-30. 被引量：2
7CHO J, GARCIA-MOLINA H. The evolution of the Web and implications for an incremental crawler[ C]//Proceedings of the 26th International Conference on Very Large Databases. San Francisco: Morgan Kaufmann Publishers, 2000:200 - 209.
8FETTERLY D, MANASSE M, NAJORK M, et al. A large-scale study of the evolution of Web pages[ C]// Proceedings of the 12th International Conference on World Wide Web. New York: ACM Press, 2003:669-678.
9SALTON G, BUCKLEY C. Term-weighting approaches in automatic retrieval[ J]. Information Processing and Management, 1998, 24 (5): 513-523.

二级参考文献14

1孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
2[1]Cho J, Garcia-Molina H. Synchronization a database to improve freshness[A]. Proceedings of 2000 ACM International Conference on Management of Data[C].New York:ACM Press,2000.117-128.
3[2]Cho J, Garcia-Molina H. The evolution of the Web and implications for an incremental crawler[A]. Proceedings of the 26th International Conference on Very Large Date Bases[C].San Fransisco:Morgan Kaufmann Publishers Inc,2000.200-209.
4[3]Cho J, Garcia-Molina H. Estimating frequency of change[J].ACM Trans Internet Techn,2003,3(3):256-290.
5[4]Brewington B, Cybenko G. Keeping up with the changing web[J]. IEEE Computer,2000,33(5):52-58.
6[5]Cho J, Garcia-Molina H, Lawrence P. Efficient crawing through URL ordering[J]. Computer Networks,1998,30(1-7):161-172.
7[6]Hirai J. WebBase: A repository of Web pages[J]. Computer Networks,2000,33(1-6):277-293.
8[7]Cho J, Ntoulas A. Effective change detection using sampling[A]. Proceedings of the 28th International Conference on Very Large Data Bases[C]. San Fransisco: Morgan Kaufmann Publishers Inc,2002.514-525.
9J Cho,H Garcia-Molina.Parallel Crawlers[J].Proc of the 11th Int'l World Wide Web Conf[C].2002.124-135.
10E Fredkin.Trie Memory[J].Communication of the ACM,1960,3(9):490-500.

共引文献26

1陈晓志,董守斌,张凌,张元丰.基于URL类型和网页链接变化的信息采集更新算法[J].郑州大学学报（理学版）,2007,39(2):60-64. 被引量：1
2刘辉林,孟莉,杨松波,王光兴.专业搜索引擎数据更新的算法P^2FC[J].广西师范大学学报（自然科学版）,2007,25(2):222-225. 被引量：1
3徐和祥,王鑫印,王述云,胡运发.基于知识的Deep Web集成环境变化处理的研究[J].软件学报,2008,19(2):257-266. 被引量：6
4王大伟,张岩,曾皓,潘延辉.一个预测网页变化的增量式更新模型[J].微计算机信息,2009,25(6):153-154. 被引量：2
5陈丽君,林怀忠.搜索引擎页面刷新策略研究综述[J].计算机系统应用,2009,18(7):210-214. 被引量：5
6柴军飞.搜索引擎中的网络蜘蛛技术探析[J].今日科苑,2009(24):122-122.
7徐尚瑜.基于泊松过程的爬虫调度策略分析[J].现代计算机,2009,15(12):68-71. 被引量：1
8杜言琦,马军.基于版块的论坛增量搜集策略[J].中文信息学报,2010,24(3):62-68. 被引量：2
9杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].软件导刊,2010,9(7):38-39. 被引量：6
10欧阳柳波,易显,李学勇,杨柱.面向用户体验的大型网站网页分类更新策略[J].华中科技大学学报（自然科学版）,2010,38(9):18-21. 被引量：1

同被引文献56

1孟涛,闫宏飞,王继民.一个增量搜集中国W eb的系统模型及其实现[J].清华大学学报（自然科学版）,2005,45(S1):1882-1886. 被引量：7
2马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
3周俊.大型信息系统用户权限管理的探讨与实现[J].计算机应用研究,2004,21(12):143-146. 被引量：22
4孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
5孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
6程菲,汪建海,罗键.增量更新Crawler进行Web收集方法研究[J].计算机工程与科学,2006,28(12):28-30. 被引量：2
7陈奋.过滤型网络爬虫的研究与设计[D].厦门:厦门大学博士论文,2008:8-11.
8王慧强.基于本体的领域智能搜索技术研究[D].哈尔滨:哈尔滨工程大学,2007.28-29.
9中国互联网络信息中心.第27次中国互联网络发展状况统计报告[R],2011.
10CHOJ,GARCIA-MOL1NA H. The evolution of the Web and implications for an incremental crawler[A].San Francisco,ca:morgan Kaufmann Publishers,2000.

引证文献8

1王二红,寿永熙,马志强,李静.多线程搜索器的设计与实现[J].内蒙古农业大学学报（自然科学版）,2010,31(3):272-276. 被引量：2
2王坛.出版社书目数据集成系统的设计与实现[J].南阳师范学院学报,2010,9(12):64-67. 被引量：1
3吴华亮.企业工商注册信息自动搜集软件的功能研究[J].商情,2012(2):218-218.
4赵莹.基于ASP．NET的复用导出模型设计[J].商情,2012(18):220-220.
5杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2
6冯凯,陈军,王鹃,王勇.基于统计学的Web论坛增量更新策略研究[J].计算机应用与软件,2017,34(6):31-36. 被引量：1
7陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10
8郭刚,唐萍峰,叶林佶,杨超.基于爬虫技术的政策数据应用研究[J].信息系统工程,2022,35(7):56-59. 被引量：1

二级引证文献17

1杨丽军.FFmpeg在媒体资产管理系统中的应用[J].现代电子技术,2011,34(15):147-149. 被引量：6
2哈图,金永昌.计算机远程监控系统在教学中的研究与实现[J].内蒙古农业大学学报（自然科学版）,2015,36(3):141-146. 被引量：3
3张玉芳,游超,杨德胜,罗永康,陈东东,薛永强.四川省级农业气象综合业务平台开发与应用[J].现代农业科技,2018(22):206-210. 被引量：3
4黄睿莹.中文图书书目数据网络采集方法刍议[J].黑河学院学报,2018,9(11):204-205. 被引量：1
5刘晖,石倩.基于网络爬虫的新闻网站自动生成系统的设计与实现[J].电子技术与软件工程,2019(13):18-19. 被引量：3
6李福荣,贾志刚.基于Python的校园贴吧数据爬虫技术研究[J].技术与市场,2019,26(11):34-35. 被引量：2
7仇晨晔.面向人工智能时代的离散数学教学方法研究[J].软件导刊,2019,18(12):192-194. 被引量：13
8陈广智.教师总览性上课时间信息生成方法及其Python实现[J].软件导刊,2020,19(6):166-170.
9王海玲.大数据时代下信科专业离散数学教学改革[J].计算机教育,2020(7):66-69. 被引量：7
10王胜,谢元平.基于Scrapy和Kettle的对标城市政策文件库建设[J].电子技术与软件工程,2021(5):181-183. 被引量：2

1杨君锐.关联规则增量式快速更新方法的研究[J].微电子学与计算机,2004,21(9):120-124. 被引量：7
2庄伟强,王鼎兴,沈美明,郑纬民.可扩展并行Web服务器群技术的研究[J].小型微型计算机系统,2000,21(1):19-23. 被引量：10
3王慧娟.基于移动Agent技术的并行Web信息检索[J].情报探索,2007(9):42-43. 被引量：1
4段琢华,蔡自兴.关联规则的增量更新策略研究[J].计算机工程与科学,2005,27(10):55-57.
5徐文杰,陈庆奎.基于余弦向量法的Web数据并行抓掘系统[J].计算机工程,2009,35(7):64-67. 被引量：2
6王永强.文本相似度检测在校园管理系统中的综合应用[J].电脑编程技巧与维护,2014(22):55-56.
7陈华平,孙清扬.可扩展并行Web服务器集群的实现技术[J].计算机工程与应用,2002,38(3):149-151. 被引量：16
8铁玲,诸鸿文,戎蒙恬.具有区分服务等级的可扩展并行服务器集群[J].计算机工程,2001,27(1):28-29. 被引量：6
9孙长翔,陈秀国.一种ShowModalDialog弹出窗口抓取技术及应用[J].电脑编程技巧与维护,2014(18):6-7. 被引量：1
10张婷婷,刘凯,王伟军.科研人员Web数据自动抓取模式及其开源解决方案[J].信息资源管理学报,2015,5(2):21-27. 被引量：9

计算机应用

2009年第4期

浏览历史

内容加载中请稍等...

增量更新并行W eb爬虫系统被引量：8

参考文献9

二级参考文献14

共引文献26

同被引文献56

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

增量更新并行W eb爬虫系统 被引量：8

参考文献9

二级参考文献14

共引文献26

同被引文献56

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

增量更新并行W eb爬虫系统被引量：8