通过Filter抵御网页爬虫被引量：5

Web Crawler by Filter resist

导出

摘要过滤器反爬虫的基本思想就是建立一个可以区分客户请求的总过滤器,根据用户的请求类型实现不同策略的处理。如果是一个普通的客户请求,过滤器将请求继续传递到客户请求的资源上;如果请求时一个爬虫的检索请求,就需要根据自己实际应用的需要,或者直接拒绝爬虫请求,或者延时加载爬虫的请求。另外在过滤器将所有的请求都记录到一个日志系统中,为以后网站的为系统开发﹑测试及性能调整提供依据。 The basic idea of filter anti-crawler is creating a general filter that can distinguish the different client requesl type,implementing different strategy according different client request type.If a general client request,filter forward the request to resource client＇s target Jr a crawler request,filter implements different strategy,such as refusing the re- quest or delaying load the request.furthermore,the filter can record the request to logging system.This will provide the basis for the approaching development, test or performa nce tuning.

作者刘庆杰孙旭光王小英

机构地区防灾科技学院信息工程系

出处《网络安全技术与应用》 2010年第1期70-71,共2页 Network Security Technology & Application

关键词爬虫 FILTER User-Agent Web.xml crawler Filter User-Agent Web.xml

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献57

1彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
2刘宪权,吴允锋.侵犯商业秘密罪若干争议问题研究[J].甘肃政法学院学报,2006(4):20-27. 被引量：10
3顾流,万仲保,石红芹.基于web页信息隐藏的研究与实现[J].微计算机信息,2006,22(08X):186-187. 被引量：10
4PENG Tao HE Fengling ZUO Wanli.A New Framework for Focused Web Crawling[J].Wuhan University Journal of Natural Sciences,2006,11(5):1394-1397. 被引量：3
5Alexandros Batzios, Christos Dimou, Andreas L Symeonidis, et al. BioCrawler: An intelligent crawler for the semantic Web [ J ]. Expert Systems with Applications, 2008,35 (1-2) :524-530.
6Sotiris Batsakis,Euripides G M Petrakis,Evangelos Milios. Improving the performance of focused Web crawlers [ J ]. Data & Knowledge Engineering,2009,68(10) :1001-1013.
7张宁.群体兴趣网的统计特性研究[J].上海理工大学学报,2008,30(3):243-248. 被引量：18
8邹海亮,孙莉.可定制的聚焦网络爬虫[J].电子科技,2009,22(1):47-50. 被引量：4
9汪斌,张云伟,刘健,陈晶.一种面向农业信息主题网络爬虫的设计[J].安徽农业科学,2009,37(20):9699-9700. 被引量：6
10黄莉,王成良,杨铮.面向主题网络爬行的智能隧道穿越算法研究[J].计算机应用研究,2009,26(8):2931-2933. 被引量：6

引证文献5

1张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
2邹科文,李达,邓婷敏,李嘉振,陈义明.网络爬虫针对“反爬”网站的爬取策略研究[J].电脑知识与技术,2016,0(3):61-63. 被引量：15
3刘洋.基于网页浏览行为的反爬虫研究[J].现代计算机,2019,25(7):58-60. 被引量：4
4杨峰,林钰杰,吴丽贤.基于网络爬虫的电力故障信息检索引擎设计[J].微型电脑应用,2019,35(8):87-90. 被引量：2
5童云峰.大数据时代网络爬虫行为刑法规制限度研究[J].大连理工大学学报（社会科学版）,2022,43(2):88-97. 被引量：22

二级引证文献45

1黄陈辰.侵犯公民个人信息罪中“非法”的性质辨析与意蕴阐释[J].政法学刊,2024,41(3):66-74.
2王沐心.门户网站保密检查系统[J].计算机与现代化,2013(10):121-124.
3黄勇,朱卫华,习军.基于网络爬虫技术的螺杆膨胀机专利查询平台的设计与实现[J].科技风,2016(1):36-36.
4刘宇,程学林.基于决策树算法的爬虫识别技术[J].软件,2017,38(7):122-125. 被引量：4
5罗平,陆红梅,施威,夏斌.基于Scrapy的商品评价获取系统设计[J].微型机与应用,2017,36(19):12-15. 被引量：7
6尹子轩,王影,刘建宾.智学分享资源有效性检测工具设计与实现[J].软件导刊,2017,16(12):109-111.
7余豪士,匡芳君.基于Python的反反爬虫技术分析与应用[J].智能计算机与应用,2018,8(4):112-115. 被引量：14
8陈智,梁娟,谢兵,傅篱.新浪微博数据爬取研究[J].物联网技术,2016,6(12):60-63. 被引量：9
9南博成,向杰益,沈晓红,李邱溢,潘君妮,张斌.面向跨境电商的网络抓取技术研究[J].计算机时代,2018(8):13-16. 被引量：1
10刘清.网络爬虫针对“反爬”网站的爬取策略分析[J].信息与电脑,2019,31(3):23-24. 被引量：11

1段湘宁,王晓刚.基于JSP技术实现认证授权[J].网络与信息,2010,24(11):24-24.
2张海,刘晓冬.浅析如何应对网络爬虫流量[J].中国市场,2016(23):77-78.
3严灿勋,刘慧敏,宋兰.基于C#正则表达式的英汉翻译对抽取[J].科技信息,2011(26):1-2. 被引量：1
4曹海燕.网页爬虫系统的设计[J].中国科技博览,2015,0(5):226-226. 被引量：1
5房洪臣,吴建波,冷文浩.基于STRUTS框架的自定义标签的应用与研究[J].计算机应用与软件,2008,25(5):283-285.
6廖治凯,彭剑.Struts应用的安全问题研究[J].邵阳学院学报（自然科学版）,2007,4(3):46-48.
7廖治凯,周新梅.Struts应用的安全问题研究[J].电脑与信息技术,2007,15(3):61-63.
8康年华,陈明志,冯映燕,刘川葆.一种基于特征信息隐式获取的抗干扰浏览器指纹生成算法[J].信息网络安全,2017(4):71-77. 被引量：3
9万立夫.网盘无拘束下载[J].电脑爱好者,2015,0(1):15-15.
10鲍轩,邱一丰,蒋海滨.一种优化内容适配技术的设计与实现[J].计算机与现代化,2014(6):137-140.

网络安全技术与应用

2010年第1期

浏览历史

内容加载中请稍等...

通过Filter抵御网页爬虫被引量：5

同被引文献57

引证文献5

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

通过Filter抵御网页爬虫 被引量：5

同被引文献57

引证文献5

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

通过Filter抵御网页爬虫被引量：5