期刊文献+

面向电商网站的分布式爬虫系统开发 被引量:1

下载PDF
导出
摘要 电商网站是当前人们购物的主要渠道,它拥有丰富的商业数据,利用爬虫收集后可以从这些数据中发现一些对市场分析和预测非常有益的信息。本系统针对中国最大的b2c网站:京东商城设计开发。系统使用Python语言,在Pycharm上设计开发。技术上使用scrapy作为爬虫框架、redis作为分布式集中调度器、Elasticsearch作为数据库;另外,在去重策略上使用了Bloom Filter改进算法,使用selenium控制浏览器获得网页中js加载的动态数据。值得一提的是,系统在保证爬虫下载快速和准确的同时,能应对各种网站的反爬虫机制。
作者 黎佳
机构地区 厦门工学院
出处 《通讯世界》 2018年第8期106-107,共2页 Telecom World
  • 相关文献

参考文献2

二级参考文献6

共引文献2

同被引文献6

引证文献1

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部