分布式网络爬虫URL去重策略的改进被引量：3

Improvement on Unrepeated Tactics of URL of Distributed Spider

下载PDF

导出

摘要分布式网络爬虫作为一门新兴技术,已经应用在一些大型商业的搜索引擎系统当中.重点放在分布式技术在网络爬虫领域中,URL去重这一分布式网络爬虫的核心问题上,以基于内存的去重方式为基础,扩展改进传统的广义表数据结构,提出了一种新的基于内存改进广义表的URL去重算法.这种算法与传统的去重算法相比较,在空间效率可行范围之内,有效地缩短了单次去重的时间,使总控服务器上的去重不再成为整个系统的瓶颈. As a new technology, distributed web spider has been widely applied to some great commercial search engine systems. The stress is laid on the core problem of distributed web spider - Unrepeated URL. Based on the memory mode Unrepeated URL, the traditional generalized lists data framework is expanded and improved. A new Unrepeated URL algorithm based on the memory improved generalized list is put forth. Compare with the traditional Unrepeated algorithm, this algorithm can effectively improve the time of single detecting nearduplicate under the approval range of space efficiency, which makes the Unrepeated URL in the general control server impossible to become the bottle - neck of the whole system.

作者吴小惠

机构地区福建交通职业技术学院

出处《平顶山学院学报》 2009年第5期116-119,共4页 Journal of Pingdingshan University

关键词网络爬虫分布式 URL去重广义表 wob spider distributed unrepeated URL generalized lists

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1池静,倪健,王华,邢秀娥.Bloom Filter和Weighted Bloom Filter的比较与研究[J].河北师范大学学报（自然科学版）,2006,30(4):398-402. 被引量：4
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
3肖明忠,代亚非,李晓明.拆分型Bloom Filter[J].电子学报,2004,32(2):241-245. 被引量：29

二级参考文献51

1[1]B Bloom.Space/time tradeoffs in hash coding with allowable errors[J].Communications of the ACM,1970,13(7):422-426.
2[2]M Mitzenmacher.Compressed bloom filters[A].In Proceedings of the 20th ACM Symposium on Principles of Distributed Computing (PODC2001)[C].Newport,Rhode,Island,2001.
3[3]Li Fan,P Cao,J Almeida,A Broder.Summary cache:A scalable wide-area web cache sharing protocol[J].IEEE/ACM transactions on networking,2000,8(3).
4[4]J Kubiatowicz,D Bindel,Y Chen,S Czerwinski,P Eaton,D Geels,R Gummadi,S Rhea,H Weatherspoon,W Weimer,Cwells,B Zhao.OceanStore:An architecture for globe-scale persistent storage[A].In proceedings of the 9th international conference on architectural support for programming languages and operating systems (ASPLOS 2000)[C].Cambridge,MA,2000.
5[5]M V Ramakrishna.Practical performance of bloom filters and parallel free-text searching[J].Communications of the ACM,1989,32(10):1237-1239.
6[6]J K Mulllin.A second look at bloom filters[J].Communiations of the ACM,1983,26(8):570-571.
7[7]I H Witten,A Moffat,T Bell.Managing Gigabytes (2nd Edition)[M].Morgan Kaufmann,San Francisco:Morgan Kaufmaan,1999.
8[8]George Coulouris,Jean Dollimore,et al.Distributed Systems Concepts and Design (3rd Edition)[M].Reading,Mass:Addison Wesley,2001.
9[9]C Stanfill,B Kahle.Parallel free-text search on the connection machine system[J].Communication of the ACM,1986,29(12).
10[10]Wing Ho A Yuen,et al.A hybrid bloom filter location update algorithm for wireless cellular systems[A].IEEE International Conference on Communications[C].Montreal,ICC(3),1997.1281-1286.

共引文献183

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2范俊梅,王斌,王国仁,郭鹏.分布式环境下改进的Bloom Filter过滤技术[J].华中科技大学学报（自然科学版）,2005,33(z1):205-208. 被引量：2
3李珺,刘晓光,王刚,刘璟.K分组合型Bloom Filter方法的设计[J].计算机研究与发展,2008,45(z1):48-52. 被引量：1
4杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
5张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
6胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
7李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
8孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
9王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
10刘渊,刘元珍,李小航.一种新的基于SCBF的流抽样测量算法研究[J].计算机工程与应用,2007,43(29):140-142. 被引量：3

同被引文献15

1刘波涛,赵刚,冯翠丽,唐乐.Sniffer原理解析及其WinPcap实现[J].华东交通大学学报,2005,22(5):96-99. 被引量：1
2孙君,张苏.基于ISI与KNS服务平台的跨库检索比较[J].图书馆学研究,2007(1):64-66. 被引量：3
3胡毅.搜索引擎优化及其应用研究[D].昆明:云南大学,2011:4-9.
4陈鸳.基于标准协议的流媒体平台的研究和实现[D].上海:上海交通大学,2009.
5GUO Songtao, DONG JianXiong. A Large Scale URL Verification Pipeline Using Hadoop[C], Shanghai: Data Mining Work- shops(ICDMW), 2011 IEEE 11th International Conference on, 2011 : 1-5.
6陈言,颜晨阳.一种网络爬虫的带缓存非阻塞异步域名解析器模型及其性能分析[J].软件导刊,2009,8(11):143-146. 被引量：2
7梁雪松,张容.网络爬虫对网络安全的影响及其对策分析[J].计算机与数字工程,2009,37(12):86-88. 被引量：7
8杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
9王东,熊世桓.基于拼音首字母查询的去重优化设计[J].贵州师范学院学报,2010,26(6):37-39. 被引量：4
10洪道广.Google Scholar的数据整合研究[J].现代情报,2010,30(7):39-41. 被引量：8

引证文献3

1杨靖韬,陈会果.对网络爬虫技术的研究[J].科技创业月刊,2010,23(10):170-171. 被引量：5
2郝丹,周津慧,关贝,王衍喜,韩继欣.文献跨库检索中去重方法研究与应用[J].现代图书情报技术,2011(7):116-120. 被引量：10
3谢泽辉,李建忠.海量音频分布式网络爬虫系统的研究与实现[J].韩山师范学院学报,2015,36(6):28-34.

二级引证文献15

1金涛.网络爬虫在网页信息提取中的应用研究[J].现代计算机,2012,18(1):16-18. 被引量：11
2廖晓锋,王永吉,周津慧,关贝.一种领域专家文献自动收集系统[J].计算机系统应用,2012,21(6):115-120. 被引量：2
3刘雅静,王衍喜,郝丹,刘子曜,王丽,周津慧.具有知识服务与可持续发展的ISCAS群组知识平台设计与应用[J].现代图书情报技术,2012(7):19-26. 被引量：6
4汤怡洁,杨锐,刘毅,黄金霞,张敏.专业领域知识环境中数据摄取工具设计与实现[J].图书情报工作,2012,56(23):103-107. 被引量：2
5戴艳杰.基于“引路者”的高校文献检索课程教学改革[J].河南图书馆学刊,2013,33(1):67-69. 被引量：2
6于健,许晨,王媚君,张旻浩,岳桢干,吴霞,赵春梅.SCI/EI文献数据融合软件设计与实现[J].现代图书情报技术,2014(11):79-87.
7周艳玫,刘东苏,王衍喜,郝丹.大学生信息行为调查分析与信息服务对策[J].图书情报工作,2015,59(6):61-67. 被引量：26
8周艳玫,王衍喜,郝丹,高宇璇,刘东苏.嵌入学科服务过程的信息服务平台设计与实现[J].图书情报工作,2015,59(8):97-102. 被引量：19
9王洪军,张玉,李焱,祝国浩,王宇光,张晓梅,冯占英.基于Web的中文期刊查收查引跨库检索系统研发[J].中华医学图书情报杂志,2016,25(6):24-28. 被引量：7
10汤怡洁,刘毅,宋文,周子健,杨锐,李建伟.基于语义查询接口的科研本体知识库数据集成方法研究与实现[J].图书馆杂志,2017,36(2):95-102. 被引量：1

1任昱凤.分布式主题爬虫的研究与设计[J].计算机光盘软件与应用,2015,18(1):11-12. 被引量：1
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
3成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23-23. 被引量：14
4杨祥清.存储系统数据去重策略研究[J].信息通信,2014,27(8):132-132. 被引量：5
5李保玉.浅谈基于C#的网络类垂直搜索引擎数据采集技术[J].企业导报,2014(7):149-149.
6袁志伟,杨鹏,刘旋.双结构网络中URL去重机制研究[J].太原理工大学学报,2016,47(1):68-74. 被引量：1
7张维刚,徐永东,雷小强,何辉.Web全文检索中间件的设计与应用[J].计算机应用,2011,31(8):2261-2264. 被引量：2
8严磊,丁宾,姚志敏,马勇男,郑涛.基于MD5去重树的网络爬虫的设计与优化[J].计算机应用与软件,2015,32(2):325-329. 被引量：10
9丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
10李跃健,朱程荣.基于Larbin的网络爬虫体系结构的研究与改进[J].计算机技术与发展,2012,22(7):147-150. 被引量：2

平顶山学院学报

2009年第5期

浏览历史

内容加载中请稍等...

分布式网络爬虫URL去重策略的改进被引量：3

参考文献3

二级参考文献51

共引文献183

同被引文献15

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

分布式网络爬虫URL去重策略的改进 被引量：3

参考文献3

二级参考文献51

共引文献183

同被引文献15

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

分布式网络爬虫URL去重策略的改进被引量：3