期刊文献+

基于python的网络爬虫研究 被引量:13

下载PDF
导出
摘要 大数据背景下,数据和信息以前所未有的方式增长,对于人们来说,如何从纷杂的网页中获得需要的信息,或者有价值的信息成为研究热点,因此,爬虫技术近几年研究很多,发展很快。python语言是目前爬虫使用最多的语言,python语言近几年在语言领域占据着重要的地位,目前很多高校已经开始python语言相关课程。本文对几种爬虫技术进行了比较,提出了一种新的基于scrapy开源框架的改进爬虫算法,在主题相关性分析中采用基于贝叶斯分类器的算法,在解析网页中结合dom树的分块算法,对scrapy框架下的url过滤和去重进行优化,对特定目标中相关的网页内容进行了爬取,经过实验表明,查准率有了提高,耗时缩短了,总体来说,改进后的算法优于之前的算法。
作者 郭锋锋
出处 《佳木斯大学学报(自然科学版)》 CAS 2020年第2期62-65,共4页 Journal of Jiamusi University:Natural Science Edition
基金 安徽高校自然科学研究项目(KJ2019A1060)。
  • 相关文献

参考文献7

二级参考文献27

共引文献69

同被引文献60

引证文献13

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部