期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于Scrapy框架的网络爬虫抓取实现被引量：4

Implementation of Web Crawler Capture Based on Scrapy Framework

下载PDF

导出

摘要随着互联网的发展,网络数据覆盖了各个领域,但随着网络数据量的增加和数据格式的多样化,用户从海量数据中获取有价值的数据变得越来越困难。目前国内外对数据采集技术进行了研究,发现通过网络爬虫技术可以自动获取网络资源。本文以南京市二手房信息为例,设计了一个基于Scrapy框架的爬虫程序,对中西部部分地区的二手房信息进行抓取和存储,最后运用Excel数据分析,对南京市二手房资源按区域、住房类型进行分析。结果表明,该程序能够自动采集安居客户的住房信息,提高了用户获取信息的速度和质量,为用户数据分析提供了数据源。 With the development of the Internet, network data covers various fields, but with the increase of the amount of network data and the diversification of data formats, users from the massive data to obtain valuable data becomes more and more difficult. At present, data acquisition technology is studied at home and abroad, and it is found that web crawler technology can automatically acquire network resources. This paper takes the secondhand housing information of Nanjing as an example, designs a crawler program based on Scrapy framework, captures and stores the second-hand housing information of some parts of the central and western regions, and finally uses Excel data analysis to analyze the second-hand housing resources of Nanjing according to regions and housing types. The results show that the program can automatically collect the housing information of the customer, improve the speed and quality of the user to obtain information, and provide data source for user data analysis.

作者聂莉娟方志伟李瑞霞 NIE Lijuan;FANG Zhiwei;LI Ruixia(Jinken College of Technology,Nanjing Jiangsu 210000)

机构地区金肯职业技术学院

出处《软件》 2022年第11期18-20,共3页 Software

基金江苏省职教学会2021—2022年度职业教育研究课题《民办高职院校“专企融合、岗位分级实现梯队式教育”人才培养模式的实践研究》(XHYBLX2021010)。

关键词 Scrapy PYTHON 网络爬虫大数据 Scrapy Python web crawler big data

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1张小秋.基于Scrapy框架的网络爬虫分析与抓取实现[J].电脑编程技巧与维护,2022(2):18-19. 被引量：9
2欧阳元东.基于Scrapy框架的网站数据抓爬的技术实现[J].电子制作,2020,28(4):49-50. 被引量：3
3王嘉宝,雒伟群.基于Scrapy框架的电影数据爬取和可视化分析[J].西藏科技,2022(2):64-68. 被引量：6
4黄雨辰,童彤.基于Scrapy爬虫框架下电商数据分析[J].安阳师范学院学报,2021(5):132-136. 被引量：4
5杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22

二级参考文献29

1孙歆,戴桦,孔晓昀,赵明明.基于Scrapy的工业漏洞爬虫设计[J].网络空间安全,2017,8(1):66-71. 被引量：6
2刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29
3罗平,陆红梅,施威,夏斌.基于Scrapy的商品评价获取系统设计[J].微型机与应用,2017,36(19):12-15. 被引量：7
4孙小越,王超.基于Scrapy框架的电商数据分析平台[J].电脑知识与技术,2017,13(10):276-278. 被引量：3
5魏倩男,贺正楚,陈一鸣.基于网络爬虫的京东电商平台数据分析[J].经济数学,2018,35(1):77-85. 被引量：10
6姜同庆,于海兰,王亚楠.Web网络大数据分类系统开发应用[J].信息技术与信息化,2018(9):105-107. 被引量：3
7焦萍萍.基于python技术面向校园网原型搜索引擎设计[J].电脑知识与技术,2017,13(3X):20-21. 被引量：4
8刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(5X):19-21. 被引量：19
9王磊,刘晓丹.基于Scrapy的网络爬虫系统框架设计与实现[J].微型电脑应用,2019,35(4):48-50. 被引量：10
10丁志毅.基于Scrapy和Hadoop平台的房屋价格数据爬取和存储系统[J].电子技术与软件工程,2019(17):166-167. 被引量：2

共引文献37

1李依潼,王骥,任肖丽.基于Scrapy的电商数据分析系统设计与实现[J].电子技术与软件工程,2020(2):178-181. 被引量：1
2付顺顺.基于Scrapy的赌博网站数据采集与分析[J].网络安全技术与应用,2020(6):150-151. 被引量：2
3姚静.基于智能手机的移动电商系统研究[J].微型电脑应用,2021,37(2):37-40.
4孔霞,张立,李联辉.大数据下复杂网络支持的绿色包装满意度分析[J].包装工程,2021,42(8):218-226. 被引量：1
5依力·吐尔孙,艾孜尔古丽.基于Python的美食数据爬取及可视化研究[J].电脑知识与技术,2021,17(10):19-20. 被引量：1
6王一高,任耀星,李嘉瑶.基于Hadoop集群的大数据新闻可视化平台的设计[J].电子技术与软件工程,2021(7):170-172. 被引量：2
7陈皓,周传生.基于Python和Scrapy框架的网页爬虫设计与实现[J].电脑知识与技术,2021,17(13):3-5. 被引量：7
8张建根,于耀祖.网络爬虫在拟在工程项目数据分析中的应用[J].科技风,2021(19):119-121. 被引量：3
9赵瑞丹,朱旭.基于爬虫技术和语义分析的网络舆情采集系统设计[J].电子设计工程,2021,29(14):56-60. 被引量：2
10张钧鸣,牛雷,杨强.核电企业基于网页爬虫技术的运维自动化创新[J].产业与科技论坛,2021,20(11):43-45.

同被引文献45

1方月彤,黄惠晟,陈麒骏,徐欣.基于多层感知机的情绪分类系统[J].产业与科技论坛,2021,20(2):35-37. 被引量：1
2巫伟峰,张群英.基于互联网学术搜索引擎分析国内树莓研究现状——以“百度学术”为例[J].安徽农学通报,2019,25(14):50-52. 被引量：1
3夏瑜潞.循环神经网络的发展综述[J].电脑知识与技术,2019,15(7X):182-184. 被引量：28
4熊伟.改革完善新形势下工程建设发承包的招标投标制度——对《中华人民共和国招标投标法（修订草案公开征求意见稿）》的建议意见[J].招标采购管理,2019,0(12):18-19. 被引量：2
5黄英双,曹辉.改进人工蜂群算法优化支持向量机及应用[J].计算机应用与软件,2021,38(2):258-263. 被引量：16
6贾荣.公立医院医疗设备招标采购常见问题及对策探讨[J].中国医疗器械信息,2021,27(3):151-153. 被引量：11
7项阳阳.Web前端框架技术综述[J].电子技术与软件工程,2020(24):58-59. 被引量：3
8马菊美.招标采购中医疗设备技术参数与性能的拟定[J].中国招标,2021(3):105-107. 被引量：6
9齐巧娜,刘艳,陈霁晖,刘昕竹,杨锐,张津源,崔梦璇,谢艺萌,王则远,于泽,高飞,张健.机器学习XGBoost算法在医学领域的应用研究进展[J].分子影像学杂志,2021,44(5):856-862. 被引量：8
10刘宏嘉,王静,黄宇亮,李晨光,吴昊,马文君,曹文田,张艺宝.基于Web爬虫技术的电子病历信息聚合工具的开发及验证[J].中国医学物理学杂志,2021,38(11):1444-1448. 被引量：3

引证文献4

1赵鹏,苏楠,于慧霞.基于Scrapy的高性能网站状态批量采集系统[J].中国新通信,2023,25(13):48-50.
2房伟伟,韩猛.人工智能在自然语言处理中的应用[J].信息记录材料,2023,24(9):221-223.
3崔梦银,邓茵,刘满意.Python爬虫技术在学术聚合系统中的应用[J].现代信息科技,2024,8(10):68-74.
4车雪松,张敏,卢东生,刘达洋.自然语言处理在医疗设备采购参数制订中的应用价值研究[J].中国医学装备,2024,21(6):161-166.

1郑文平.网络爬虫与爬虫对抗技术研究[J].电脑编程技巧与维护,2022(12):173-176. 被引量：3
2张璐璐,吴丽杰,孙俊杰,王星月.基于网络数据自动提取的爬虫设计与实现[J].广州航海学院学报,2022,30(4):74-78. 被引量：3
3聂得欣.基于AJAX的网络爬虫应用研究[J].河南财政税务高等专科学校学报,2022,36(5):93-96.
4南玉兰,闫拴虎.Excel数据分析在电商行业中的应用[J].科技与创新,2022(19):133-138. 被引量：1
5平淡.用好函数Excel数据分析有门道[J].电脑爱好者,2022(15):52-53.
6吴黎,解文欢,张有智,宋丽娟,李岩,吕志群.基于温度植被干旱指数的黑龙江省20年干旱时空特征研究[J].水土保持研究,2022,29(5):358-363. 被引量：5
7曾水新,黄日胜.基于Scrapy的房产信息爬取系统设计[J].电脑编程技巧与维护,2022(12):26-28. 被引量：1
8朱嵩宇,韩东,张钊.基于任务驱动的高职活页式教材设计探索[J].黑龙江科学,2022,13(23):94-96. 被引量：4
9原显冬.基于在线评论的新能源汽车消费者需求研究[J].商展经济,2023(1):62-64. 被引量：1
10邹志博.基于数据挖掘的自适应网络安全审计系统的研究与实现[J].软件,2022,43(10):145-147. 被引量：3

软件

2022年第11期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部