-
题名基于python的分布式网络反爬虫数据有序性研究
被引量:2
- 1
-
-
作者
朱镕申
孙川钘
潘虹
-
机构
电子科技大学成都学院
-
出处
《计算机仿真》
北大核心
2023年第5期426-429,447,共5页
-
基金
分布式数据库隐私信息增量式更新方法仿真(2017ZY0725)。
-
文摘
爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取人为纠错、主成分分析线性降维以及数据转换等预处理手段,获取特征清晰的反爬虫数据集;根据反爬虫数据样本集与训练集的合并集,结合有向图,利用k最邻近分类算法划分反爬虫数据类别,针对分布式网络反爬虫数据的无序性,设计比特序列递推算法,赋予反爬虫数据有序性。仿真阶段中,经对比百度图片与反爬取到的图片顺序,验证所提方法的有效性,通过探索带宽环境对数据有序性的影响可知,其有序性不受带宽环境影响。
-
关键词
分布式网络
反爬虫数据
有序性
分类算法
-
Keywords
Distributed network
Anti-crawler data
Order
Nearest neighbor classification algorithm
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-