一种新的网络爬虫带宽控制策略被引量：2

A Fast Iris Localization and Recognition Method

下载PDF

导出

摘要网络爬虫如何在限定带宽的条件下进行爬行是一个有巨大应用价值的问题,但是目前对这个方面的研究较少,本文提出了一种基于对站点礼貌爬行的爬虫带宽控制策略,通过对不同站点下载速度的建模分析和基于礼貌爬行的访问频率控制,得到了面向站点的爬行控制算法,最后实验证明这种方法能够充分利用所限定的带宽。 How to run under constrained bandwidth for web crawlers is of great applicant value, however, it has been seldom studied. This paper present a crawler bandwidth controlling policy based on polite crawling. The model of predict downloading speed of differ- ent sites is set up, and the maximum request frequency of sites are obtained based on polite crawling. Upon these, a site-based controlling algorithm of crawling is presented. The experimental results prove effectiveness of it.

作者孟祥乾叶允明

机构地区哈尔滨工业大学深圳研究生院

出处《微计算机信息》北大核心 2008年第33期76-77,106,共3页 Control & Automation

基金国家自然科学基金项目"基于增量学习的主题爬虫关键技术研究"(No.60603066)

关键词网络爬虫限定带宽礼貌爬行 Web crawler bounded bandwidth polite crawling

分类号 TP391.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1M. Koster. Robots exclusion protocol [EB/OL]. http://www.robotstxt.org/wc/norobots.html, 1994
2M. Mauldin and M. Schwartz. Spidering BOF report [R]. Technical report, Distributed Indexing/Searching Workshop, May 1996.
3M. Najork and A. Heydon. High-performance Web Crawling[R]. Technical report, Compaq Systems Research Center, September 2001.
4Kasom Koht-arsa and Surasak Sanguanpong. High Performance Large Scale Web Spider[C]. The 2002 International Symposium on Communications and Information Technology. Pattaya, Chonburi, Thailand, 2002.
5Michelangelo Diligenti, Marco Maggini, Filippo Maria Pucci. Design of a Crawler with Bounded Bandwidth[C]. In Proceedings of the 13th international World Wide Web Conference, 2004.
6李涛,陈鹏,李哲.深度Web资源探测系统的研究与实现[J].微计算机信息,2007,23(33):185-187. 被引量：7

二级参考文献8

1杨海东,叶小岭,张颖超.基于Hash算法实现搜索引擎中重复WEB页面的消除[J].微计算机信息,2006,22(09X):299-301. 被引量：6
2Yanbo Ru,Department of Computer Science,University of Southem California,Los Angeles,California USA .Ellis Horowitz,Depart-ment of Computer Science,University of Southern California, LosAngeles,Califomia,USA. Indexing the invisible web:a survey.
3Henry Kautz,Bart Selman,Mehul Shah. The Hidden Web.
4Luciano Barbosa,University of Utah, Juliana Freire,University of Utah. Searching for Hidden-Web DataBases.
5Andrei Z.Broder, IBM TJ Watson Research Center.Marc Najork, Microsoft Research, Janet L.Wiener,Hewlett Packard Labs .Efficient URL Caching for World Wide Web Crawling.
6Ricardo Baeza-Yates,Berthier Ribeiro-Neto etc. Modern Information Retrieval.
7潘春华,冯太明.武港山基于移动爬虫的web信息收集系统的设计.
8Deep web 白皮书.http://www.brightplanet.com/resources/details/deepweb.html.

共引文献6

1曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
2卢佳佳,苏一丹,李娜.Deep Web中基于聚类的复杂模式匹配[J].微计算机信息,2009,25(6):220-222. 被引量：1
3金灵芝,王小玲,朱守中.Deep Web数据源自动分类[J].微计算机信息,2009,25(12):227-228. 被引量：3
4元书俊,朱守中,金灵芝.Deep web接口查询能力估计[J].微计算机信息,2009,25(21):210-211.
5孙玲芳,黎维良.基于定题爬虫的网页分类的多级判定算法[J].科学技术与工程,2009,9(18):5534-5537. 被引量：1
6杨府学,余建桥.深度网查询接口的模式匹配[J].微计算机信息,2010,26(33):102-103.

同被引文献7

1The Apache Software Foundation, Welcome to Lueene [EB/OL]. http://lucene, apache, org, 2010- 06-18.
2Martiin Koster. A Standard for Robot Exclusion[EB/ OL]. http ://www. robotstxt, org/orig, html, 2010-08- 15.
3白鹤,王劲林,赵志强.基于元搜索技术的主题新闻门户系统[J].计算机系统应用,2009,18(11):142-145. 被引量：2
4洪涛.关于元搜索引擎的研究与分析[J].图书馆工作与研究,2010(4):38-41. 被引量：2
5于洪志.计算机藏文编码概述[J].西北民族学院学报（自然科学版）,1999,20(3):15-19. 被引量：9
6陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003(4):97-107. 被引量：67
7拥措.基于LUCENE的藏文全文检索的研究[J].西藏大学学报（社会科学版）,2009,24(6):58-60. 被引量：5

引证文献2

1蒋明原,孔令德.基于Lucene的藏文信息采集及检索系统研究[J].电脑开发与应用,2011,24(2):34-37. 被引量：2
2周民,邱雅,王华彬.网络舆情分析中智能爬虫的设计[J].电脑知识与技术,2011,7(11X):8301-8302. 被引量：1

二级引证文献3

1普措才仁.基于潜在语义分析的藏文Web不良信息检索算法研究[J].西北民族大学学报（自然科学版）,2014,35(4):14-18. 被引量：2
2高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：6
3侯震,童惟依,邓靖飞,李扬,王青.基于新媒体的医学舆情平台构建研究[J].医学信息学杂志,2021,42(4):65-69. 被引量：1

1王昭,郭成城,晏蒲柳.一个面向站点的Web缓存系统[J].计算机工程,2005,31(7):85-87. 被引量：5
2刘凤娇,蒋永志.用于聚合组播的蚁群优化算法[J].软件导刊,2015,14(9):68-70. 被引量：1
3张传军,黄方林,马广.基于精细修改法的有限元模型修正[J].铁道科学与工程学报,2005,2(2):81-85.
4陈刚,戴礼荣,宋彦,赖伟.一种利用FMO特性实现ROI可伸缩编码的方法[J].计算机仿真,2007,24(1):101-106. 被引量：2

微计算机信息

2008年第33期

浏览历史

内容加载中请稍等...

一种新的网络爬虫带宽控制策略被引量：2

参考文献6

二级参考文献8

共引文献6

同被引文献7

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种新的网络爬虫带宽控制策略 被引量：2

参考文献6

二级参考文献8

共引文献6

同被引文献7

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种新的网络爬虫带宽控制策略被引量：2