期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

微博数据爬虫的检测方法研究

Research on detection method of Weibo data crawler

下载PDF

导出

摘要针对常见的分布式网络爬虫提出了一种对策,研究了爬虫检测的方法,并分析了分布式爬虫如何绕过这些方法。通过关注网络流量遵循功率分配的属性来检测分布式爬虫。当我们按请求数量对网页进行排序时,大多数请求都集中在最常请求的网页上。此外,还会有一些普通用户通常不会要求的网页。但是爬虫会请求这些网页,因为它们的算法旨在通过解析网页来迭代请求,以收集爬虫遇到的每个项目。因此可以假设,如果某些IP地址频繁用于请求位于功率分配图长尾区域的网页,则这些IP地址可以归类为爬虫节点。网络流量数据的实验结果表明,该方法可以有效地识别出0.02%误报的分布式爬虫。 This paper proposes a countermeasure against common distributed web crawlers,studies the methods of crawler de-tection,and analyzes how distributed crawlers bypass these methods.Detect distributed crawlers by focusing on the property that network traffic follows power distribution.When we sort web pages by number of requests,most requests are concentrated on the most frequently requested web pages.In addition,there will be pages that the average user would not normally request.But crawl-ers request these web pages because their algorithms are designed to iterate the request by parsing the web page to collect every item the crawler encounters.Therefore,we can assume that certain IP addresses can be classified as crawler nodes if they are fre-quently used to request web pages located in the long-tail region of the power distribution graph.Experimental results on network traffic data show that the method can effectively identify distributed crawlers with 0.02%false positives.

作者黄志高 Huang Zhigao(School of Physics and Information Engineering,Quanzhou Normal University,Quanzhou 362000,China)

机构地区泉州师范学院物理与信息工程学院

出处《现代计算机》 2023年第16期64-68,共5页 Modern Computer

基金 2018年福建省中青年教师教育科研项目(JT180381)。

关键词分布式网络爬虫长尾域值爬虫检测 distributed web crawler long tail domain value crawler detection

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1董少林,李钟慎.采用Scrapy分布式爬虫技术的微博热点舆情信息获取与分析[J].电脑与信息技术,2020,28(5):23-26. 被引量：3
2黄红桃,杨玉翔.微博网络水军数据获取研究[J].信息与电脑,2021,33(9):169-171. 被引量：1
3鲜敏.面向海量网络数据的收集方法研究与分析[J].电脑编程技巧与维护,2021(8):64-66. 被引量：2
4陆莉莉.基于爬虫的社交平台舆情用户追踪系统设计与实现[J].电脑知识与技术,2022,18(1):26-28. 被引量：1
5孙握瑜.基于Python的新浪微博爬虫程序设计与实现[J].科技资讯,2022,20(12):34-37. 被引量：6

二级参考文献28

1王勇,吕学强,姬连春,肖诗斌.基于极性词典的中文微博客情感分类[J].计算机应用与软件,2014,31(1):34-37. 被引量：28
2张良,朱湘,李爱平,王志华,鲁鹏.一种基于逻辑回归算法的水军识别方法[J].信息安全与技术,2015,6(4):57-62. 被引量：10
3程晓涛,刘彩霞,刘树新.基于关系图特征的微博水军发现方法[J].自动化学报,2015,41(9):1533-1541. 被引量：25
4邢云菲,王晰巍,韦雅楠,王铎.新媒体环境下网络舆情用户情感演化模型研究——基于情感极性及情感强度理论[J].情报科学,2018,36(8):142-148. 被引量：27
5白国梁,董泽,王小坡,姚民康.基于SnownLp和FP-Tree的操作票考核系统任务筛选研究[J].山东电力技术,2018,45(8):56-59. 被引量：1
6王开心,李岩.微博环境下网络水军的形成与传播效力研究[J].传播力研究,2018,0(2):11-14. 被引量：3
7刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(5X):19-21. 被引量：20
8张聪聪,李思彤,汤艺,殷复莲.基于数据挖掘的国际涉华舆情分析关键技术研究[J].软件,2018,39(12):172-176. 被引量：7
9曾健荣,张仰森,郑佳,黄改娟,陈若愚.面向多数据源的网络爬虫实现技术及应用[J].计算机科学,2019,46(5):304-309. 被引量：44
10杜晓旭,贾小云.基于Python的新浪微博爬虫分析[J].软件,2019,40(4):182-185. 被引量：14

共引文献7

1何芳.基于Scrapy的电子商务数据分析系统设计[J].电子技术与软件工程,2022(24):200-204.
2冯晓磊.基于Python的拉勾网网络爬虫设计与实现[J].现代信息科技,2023,7(6):85-87. 被引量：4
3袁顺科.爬虫技术在新媒体中的发展前景与应用趋势探析[J].新潮电子,2023(6):25-27.
4樊国庆,朱轩民,高润平.贵州省旅游收入预测及发展研究分析[J].保山学院学报,2023,42(4):91-99. 被引量：2
5古志敏,吴明珠.基于Python网络爬虫设计与实现[J].电脑编程技巧与维护,2023(9):163-166. 被引量：6
6朱烨行,赵宝莹,张明杰,魏笑笑,卫昆.基于Scrapy框架的微博用户信息采集系统设计与实现[J].现代信息科技,2023,7(24):41-44.
7吕新超.Scrapy框架辅助下的Python爬虫系统研究[J].电脑知识与技术,2024,20(7):49-52.

1万洳.新农人短视频对乡村文旅形象的塑造研究[J].新闻研究导刊,2023,14(12):60-62. 被引量：2
2赵淑君,刘伟,江凤月.基于大数据技术的网络舆情感知系统的分析与实现[J].南阳理工学院学报,2023,15(4):50-55.
3白金川,王豪,焦宝园,娄元仓,陈秋冰,李中伟.Python网络爬虫在医学影像领域的发展现状与趋势研究[J].生物医学工程学进展,2023,44(3):260-266. 被引量：4
4陈宋生,王朝晖,朱乐琪,王雪怡.大数据、学科交叉与会计研究:机遇与挑战[J].财会通讯,2023(20):3-10. 被引量：1
5谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
6郭毅.基于微博平台的地震灾害关注度与情感分析——以漾濞6.4级地震为例[J].华南地震,2023,43(3):46-51.
7卢恒,李文洁,石剑兰.基于扎根理论的图文社区老年用户信息交流行为影响因素研究[J].数字图书馆论坛,2023,19(8):77-86. 被引量：2
8李玲,崔溜洋,张文哲.面向数据集制作的图像重复性检测方法[J].现代计算机,2023,29(15):45-49.
9袁宏舟,郑凤婵.基于Python爬虫技术的广府文化特色符号的提炼与传播现状分析[J].电脑迷,2023(6):49-51.
10郭昭,罗奕.基于协同过滤的网络视频新闻兴趣点推荐算法[J].贵阳学院学报（自然科学版）,2023,18(3):56-59.

现代计算机

2023年第16期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部