基于Scrapy技术的数据采集系统的设计与实现被引量：14

Design and Implementation of Data Acquisition System Based on Scrapy Technology

下载PDF

导出

摘要面对互联网信息极其庞大并且经常更新的问题,基于Scrapy爬虫框架设计并实现了一种数据采集系统。不仅可以根据用户自身需求获取数据,还可以对自身的采集任务进行简单的管理。介绍了系统开发的关键技术,探讨了系统框架设计、功能模块和数据库设计方案。使用Django MTV模式进行开发,底层数据采集框架使用Scrapy,一种使用Python编写实现的网站数据异步爬虫应用框架,网页解析采用XPath和Python正则相结合的方法,采用j Query树插件z Tree实现了任务的树形管理,使用bootstrap实现了数据的任务名加关键字组合查询和页面效果。系统主要分为网页解析模块、数据处理模块、系统登录模块、任务新建模块、任务管理模块和数据查询模块。最后分析了浏览器端和服务器端的数据交互,以及网页数据定位和解析的实现。 For the huge and frequent updating of the Internet information,we design and implement a data acquisition system based on theScrapy crawler framework,which can not only obtain data according to the user’ s own needs,but also manage its own collection taskssimply. The key technology of system development is introduced,and the frame design,function module and database design scheme ofthe system are discussed. The Django MTV mode is used for development,and the underlying data collection framework applies Scrapy,an asynchronous crawler application framework implemented by Python. The web page analysis uses the method in combination of XPathand Python regular. The jQuery zTree plug-in is utilized to realize tree management of tasks,the bootstrap to achieve the effect of taskname with the keyword combination query and page. The system is divided into web page analysis module,data processing module,system login module,task module,task management module and data query module. Finally,the realization of data interaction betweenbrowser and server,and the web page data positioning and analysis are analyzed.

作者杨君陈春玲余瀚 YANG Jun;CHEN Chun-ling;YU Han(School of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学计算机学院

出处《计算机技术与发展》 2018年第10期177-181,共5页 Computer Technology and Development

基金国家自然科学基金(11501302)

关键词 Scrapy DJANGO 数据采集网络爬虫 Scrapy Django data acquisition Internet crawler

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
2巩保胜,魏春苗.基于网络爬虫的地理空间信息采集方法[J].甘肃科技,2016,32(7):17-18. 被引量：2
3彭纪奔,吴林,陈贤,黄雷君.基于爬虫技术的网络负面情绪挖掘系统设计与实现[J].计算机应用与软件,2016,33(10):9-13. 被引量：15
4章博亨,刘健,朱宇翔,吴帆,程维.基于大数据和机器学习的微博用户行为分析系统[J].电脑知识与技术,2017,13(2X):212-213. 被引量：11
5龚鸣,余杨志,邓宏涛.基于Python Django的可扩展智能家居系统[J].江汉大学学报（自然科学版）,2016,44(6):534-540. 被引量：2
6纪培培,何顶新.基于Erlang/OTP和Django的WEB实时会话系统的设计与实现[J].电脑知识与技术（过刊）,2016,22(3X):119-120. 被引量：1
7柴庆龙,谢刚,陈泽华,赵靓.基于Django框架的故障诊断和安全评估平台[J].电子技术应用,2015,41(4):163-166. 被引量：6
8张台,章杰,林培杰,赖云锋.基于Django的快件揽收服务器的开发与应用[J].单片机与嵌入式系统应用,2016,16(2):51-54. 被引量：4
9岳雨俭.基于Hadoop的分布式网络爬虫技术的设计与实现[J].电脑知识与技术（过刊）,2015,21(3X):36-38. 被引量：3
10孙歆,戴桦,孔晓昀,赵明明.基于Scrapy的工业漏洞爬虫设计[J].网络空间安全,2017,8(1):66-71. 被引量：6

二级参考文献67

1杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
2孙瑞英.网络数据内容分析研究[J].图书馆学研究,2005(5):35-39. 被引量：12
3夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
4刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
5刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量：14
6TAR JAN R.Depth-first search and linear graph algorithms[J]. SIAM Journal on Computing, 1972,1 (2) :146-160.
7SHIOZAKI J, MATSUYAMA H, O'SHIMA E, et al.An improved algorithm for diagnosis of system failures in the chemical process[J].Computers & Chemical Engineering, 1985,9(3) : 285-293.
8YU C C ,LEE C.Fauh diagnosis based on qualitative/quan- titative process knowledge[J].AIChE Journal, 1991,37(4): 617-628.
9VENKATASUBRAMANIAN V,ZHAO J, VISWANATHAN S. Intelligent systems for HAZOP analysis of complex process plants[J].Computers & Chemical Engineering,2000,24(9): 2291 - 2302.
10YANG F,SHAH S, XIAO D.Signed directed graph based modeling and its validation from process knowledge and process data[J].International Journal of Applied Mathematics and Computer Science, 2012,22(1) : 41-53.

共引文献138

1李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：2
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
4周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
5李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：52
6殷帅,胡越黎,刘思齐,燕明.基于YOLO网络的数据采集与标注[J].仪表技术,2018(12):22-25. 被引量：9
7李静力.面向高危风险漏洞修复行为的系统研究[J].自动化技术与应用,2019,38(1):39-45. 被引量：2
8周少波.基于SSM框架的数据采集系统的设计与实现[J].电脑知识与技术,2018,14(12):45-47. 被引量：1
9李应.基于Hadoop的分布式主题网络爬虫研究[J].软件导刊,2016,15(3):24-26. 被引量：9
10丁晟春,龚思兰,周文杰,王曰芬.基于知识库和主题爬虫的南海舆情实时监测研究[J].情报杂志,2016,35(5):32-37. 被引量：10

同被引文献105

1刘子谦,王志强.基于爬虫和文本处理的微博舆情分析系统[J].北京电子科技学院学报,2020(3):31-39. 被引量：5
2崔星华.基于单片机的船舱温度临界报警系统[J].舰船科学技术,2019,0(20):85-87. 被引量：5
3曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
4周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：92
5刘振平,贺怀建,李强,朱发华.基于Python的三维建模可视化系统的研究[J].岩土力学,2009,30(10):3037-3042. 被引量：11
6王浩,陆垂裕,秦大庸,桑学锋,李扬,肖伟华.地下水数值计算与应用研究进展综述[J].地学前缘,2010,17(6):1-12. 被引量：73
7吴剑锋,朱学愚.由MODFLOW浅谈地下水流数值模拟软件的发展趋势[J].工程勘察,2000,28(2):12-15. 被引量：100
8王建.手机浏览器的发展趋势[J].中国电信业,2012(6):76-77. 被引量：2
9刘淼,杨镇豪,谢韵玲,谢冬青,唐春明.Android图文同步识别系统的设计和实现[J].计算机工程与设计,2014,35(6):2207-2213. 被引量：14
10林子皓.主题爬虫的设计与实现[J].计算机技术与发展,2014,24(8):99-102. 被引量：6

引证文献14

1云洋.基于Scrapy的网络爬虫设计与实现[J].电脑编程技巧与维护,2018(9):19-21. 被引量：2
2张喜红,王玉香.基于Scrapy的中药材网络信息采集方法研究[J].江汉大学学报（自然科学版）,2018,46(6):522-527. 被引量：2
3徐郑琴.基于Scrapy的番茄病虫害数据收集[J].电脑知识与技术,2019,15(1X):24-25.
4张喜红.基于Python的中药材价格信息爬虫的设计[J].枣庄学院学报,2019,36(2):67-72. 被引量：3
5刘洋.基于Django框架的运动会管理系统的应用研究[J].技术与教育,2019,33(2):15-18. 被引量：2
6方奇洲,程友清.基于Docker容器的分布式爬虫的设计与实现[J].电子设计工程,2020,28(8):61-65. 被引量：5
7施金龙.基于PythonScrapy技术的新闻线索汇聚实现[J].电子技术与软件工程,2020(13):180-181. 被引量：1
8王胜,谢元平.基于Scrapy和Kettle的对标城市政策文件库建设[J].电子技术与软件工程,2021(5):181-183. 被引量：2
9魏亚强,陈坚,张铎,李璐.基于Python的地下水模拟研究进展与应用[J].计算机技术与发展,2021,31(5):150-156. 被引量：2
10朱明超,宋晖.多任务数据采集系统的设计与实现[J].新一代信息技术,2021,4(10):8-12.

二级引证文献26

1邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
2李红.基于python的房屋信息数据分析[J].探索科学,2019,0(3):215-216.
3吴俊杰.Python语言与javascript语言的区别吴俊杰[J].电子制作,2019,27(2):59-61.
4张喜红.基于Python的中药材价格信息爬虫的设计[J].枣庄学院学报,2019,36(2):67-72. 被引量：3
5张喜红,王玉香.基于百度AI中药材品鉴助手系统的设计[J].新余学院学报,2019,24(2):25-28. 被引量：8
6迟殿委.基于Python的网页图片爬取[J].电脑编程技巧与维护,2019(5):129-130. 被引量：4
7庄旭菲,田雪.基于Scrapy和Elasticsearch的校园网搜索引擎的研究与实现[J].科技资讯,2019,17(29):12-15. 被引量：3
8张辛.基于Django的高校职工信息采集系统设计与快速实现[J].价值工程,2019,38(36):225-227.
9张喜红,王玉香.基于Python的PEN3电子鼻nos文件关键信息自动提取工具设计[J].重庆科技学院学报（自然科学版）,2019,21(6):86-90.
10邓子云.全国高职专业点数据爬虫的设计与实现[J].南方职业教育学刊,2021,11(1):95-102. 被引量：1

1韩骏.园林绿化精细化管理技术探究[J].花卉,2017,0(24):19-20. 被引量：2
2史新华,刘敏,陈润航,陈奇.研究生学位论文外审评阅Web系统分析与设计[J].实验室研究与探索,2018,37(3):136-139. 被引量：3
3朱倩.浅谈HTML5中文档结构元素[J].福建电脑,2018,34(8):43-44.
4冯晓荣.基于B/S架构的银行尾箱安全管理系统数据库的研究[J].计算机科学与应用,2017,7(12):1157-1162.
5雷晓薇.基于Django框架的教学管理系统的研究与实现[J].电子设计工程,2018,26(18):39-43. 被引量：15
6刘洋,丁晓倩.基于智能家居的多品类移动平台设计[J].工业设计研究,2015(1):157-159.
7孙振兴.基于WEB服务的公司管理信息系统设计与实现研究[J].计算机产品与流通,2017,0(8):115-115.
8闫明.基于大数据的电商平台供应商信用评价[J].社会科学前沿,2018,7(8):1356-1360.
9岳媛,赵刚.云技术下育种数据服务平台[J].中国种业,2018(9):11-16. 被引量：4
10贾培武.Word文档巧“拼页”[J].电子与电脑,2001(1):100-100.

计算机技术与发展

2018年第10期

浏览历史

内容加载中请稍等...

基于Scrapy技术的数据采集系统的设计与实现被引量：14

参考文献10

二级参考文献67

共引文献138

同被引文献105

引证文献14

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Scrapy技术的数据采集系统的设计与实现 被引量：14

参考文献10

二级参考文献67

共引文献138

同被引文献105

引证文献14

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Scrapy技术的数据采集系统的设计与实现被引量：14