期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于Scrapy框架的网络爬虫技术应用——以豆瓣网为例

下载PDF

导出

摘要本文基于Scrapy框架,以Python语言为脚本,以豆瓣网站为例,设计并实现了对电影网站票房排名TOP250条数据关键字段信息的爬取,以及对爬取数据的过滤提纯,并存储结果数据。可利用该结果做进一步的数据分析处理,得出观众的口味喜好,电影行情的发展趋势,具有一定的经济效益。

作者阴国溶李玉香

机构地区河北科技师范学院

出处《中国宽带》 2021年第10期87-89,共3页 China BroadBand

基金 2020年河北科技师范学院大学生创新训练项目“优聘君”微信小程序(2020-83) 2018年教育部产学合作协同育人项目“基于Python的数据分析与智能开发人才培养实践”(201801037002) “Python全栈开发人才培养实践”(201802057003)。

关键词 PYTHON Scrapy框架网络爬虫豆瓣数据

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献4

1陈清.基于Python的网站爬虫应用研究[J].通讯世界,2020,27(1):202-203. 被引量：5
2郭锋锋.基于python的网络爬虫研究[J].佳木斯大学学报（自然科学版）,2020,38(2):62-65. 被引量：13
3王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12
4杨波,刘文彬,龚春红,刘胜宗.面向计算思维能力培养的Python课程[J].计算机教育,2021(2):94-98. 被引量：15

二级参考文献28

1王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
2李小正,成功,赵全军.分布式爬虫系统的设计与实现[J].中国科技信息,2014(15):116-117. 被引量：1
3孟庆浩,王晶,沈奇威.基于Heritrix的增量式爬虫设计与实现[J].电信技术,2014(9):97-101. 被引量：6
4成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23-23. 被引量：14
5管华.对当今Python快速发展的研究与展望[J].信息系统工程,2015,28(12):114-114. 被引量：6
6李应.基于Hadoop的分布式主题网络爬虫研究[J].软件导刊,2016,15(3):24-26. 被引量：9
7赵本本,殷旭东,王伟.基于Scrapy的GitHub数据爬虫[J].电子技术与软件工程,2016(6):199-202. 被引量：18
8姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31
9黄菊.一种基于语义向量空间模型的作业查重算法[J].电子科学技术,2016,3(6):786-789. 被引量：2
10陶兴海.基于Scrapy框架的分布式网络爬虫实现[J].电子技术与软件工程,2017(11):23-23. 被引量：3

共引文献41

1刘新鹏,高斌.利用Python和Pandas进行学生成绩处理[J].信息与电脑,2020,32(7):41-43. 被引量：14
2余凯,汤渊,黎海震,夏伟轩.基于Selenium框架的电力系统数据爬取应用研究[J].现代信息科技,2020,4(5):26-28. 被引量：1
3何雪锋.大数据分析与可视化课程建设经验分享[J].现代计算机,2020,26(13):66-69. 被引量：3
4付顺顺.基于Scrapy的赌博网站数据采集与分析[J].网络安全技术与应用,2020(6):150-151. 被引量：2
5张尚旻,阮湘辉.网络爬虫技术在基层平安建设中应用探索[J].数字技术与应用,2020,38(6):37-38. 被引量：2
6温佐承,侯帅.基于Python的网络爬虫设计与实现[J].电脑编程技巧与维护,2020(7):21-23. 被引量：2
7茹超超,孔子炯,徐士豪,路世禄,赵俊杰.基于Python爬虫技术的机场出租车排队论问题[J].电子元器件与信息技术,2020,4(4):41-42. 被引量：2
8田煜.基于语义情感分析的网络热点爬虫舆情分析系统[J].软件,2020,41(8):89-93. 被引量：7
9何雪锋.智联招聘数据分析与可视化系统设计[J].河北软件职业技术学院学报,2020,22(3):17-18. 被引量：1
10毕玉冰,王文庆,刘超飞,崔逸群,董夏昕,金晶.基于泛型思想的电力工业互联网爬虫框架研究[J].热力发电,2020,49(11):20-27. 被引量：2

1比冰激凌更解暑的“神器”竟然是……[J].快乐阅读,2021(13):60-61.
2化方.信息技术教育领域计算思维研究的概况与热点——基于中国知网期刊文献的计量分析[J].中小学电教（综合）,2021(5):6-9. 被引量：1
3张荑阳,毛红霞.基于python的豆瓣电影数据采集与分析可视化[J].电子制作,2021,29(16):47-49. 被引量：4
4唐宏峰.公众号时代的电影批评[J].媒介批评,2016(1):1-20.
5刘娉婷.自由选择字段的MARC数据提取工具开发实践[J].图书馆学刊,2021,43(4):49-55. 被引量：2

中国宽带

2021年第10期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部