基于Python的网络爬虫系统的设计与实现被引量：26

Design and Implementation of Web Crawler System Based on Python

下载PDF

导出

摘要网络爬虫一种自动下载网络资源的程序,是搜索引擎的组成之一。使用网络爬虫可以批量采集数据,大大提高数据分析的速度和效率。Python语言简洁、高效,被称“胶水语言”,具有丰富的第三方库,处理网页和链接非常方便。本文介绍了网络爬虫的类型、工作原理以及Python爬虫技术,构建了爬取网页图片的爬虫系统。 Web crawkers are programs to download resources from internet,oen of basic componments of search engines.Using web crawler can collect data in batches,which greatly improves the speed and efficiency of data analysis.Python language is simple and efficient,known as"glue language",with rich third library,which is very convenient to handle web pages and links.This paper introduces the types of web crawler,working principle and python crawler technology,and constructs a crawler system for crawling web images.

作者冯艳茹 FENG Yan-ru(Jiyuan vocational and Technical College,Jiyuan 459000,China)

机构地区济源职业技术学院

出处《电脑与信息技术》 2021年第6期47-50,共4页 Computer and Information Technology

基金济源职业技术学院院级重点课题(课题编号:JZXY-2020-62) 河南省教育科学“十三五”规划2020年度一般课题(课题编号:2020YB0653)。

关键词网络爬虫数据分析 PYTHON语言搜索 HTML Web crawker data analysis Python language search HTML

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：92
2孙梦薇,姚渝琪.关于Python爬虫在网页信息统计中的应用探讨[J].电子世界,2020(9):60-61. 被引量：4
3冯艳茹.Python语言在大数据分析中的应用[J].电脑知识与技术,2020,16(24):72-73. 被引量：17

二级参考文献37

1徐玉芳,苏斌.Python语言特点及其在机器学习中的应用[J].计算机产品与流通,2019,0(12):142-142. 被引量：10
2余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
3沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
4蒋宗礼,赵钦,肖华,王蕊.高性能并行爬行器[J].计算机工程与设计,2006,27(24):4762-4766. 被引量：7
5张三峰,吴国新.一种面向动态异构网络的容错非对称DHT方法[J].计算机研究与发展,2007,44(6):905-913. 被引量：1
6中国互联网络发展状况统计报告[EB/OL].http://tech.qq.com/a/20080724/000277.htm.2008-9-27.
7Arasu A, Cho J. Searching the Web[J]. ACM Transactions on Internet Technology, 2001,1 (1) : 2-43.
8Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[A]//Proceedings of the 6th Conference on Symposium on Opear-ting Systems Design & Implementation[C]. San Francisco, CA, 2004: 10-10.
9Ghemawat S, Gobioff H, Leung Shun-Tak. The Google File System[A]//Proeeedings of the 19th ACM Symposium on Operating Systems Principles[C]. 2003:20-43.
10Pike R, Dorward S, Griesemer R. Interpreting the Data:Parallel Analysis with Sawzall [J]. Scientific Programming Journal, 2005,13:277-298.

共引文献109

1姚洪亮,黄凯,黄长鹤,任丽莹,邵东岩.节点仪器SPS文件自动整理软件的开发[J].物探装备,2021(5):294-298. 被引量：1
2王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
3金婵鸣,徐东平.搜索引擎系统中网页抓取模块研究[J].现代计算机,2010,16(3):36-39.
4彭赓,范明钰.基于改进网络爬虫技术的SQL注入漏洞检测[J].计算机应用研究,2010,27(7):2605-2607. 被引量：19
5李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81. 被引量：6
6张旭,张振江,刘云.BBS舆情系统爬虫模块的研究[J].铁路计算机应用,2010,19(12):18-21. 被引量：7
7秦学勇.基于互联网资源的学科Ontology构建研究[J].廊坊师范学院学报（自然科学版）,2011,11(2):21-23.
8李晓鑫.XiaoQBot网络爬虫设计与实现[J].硅谷,2011,4(13):62-63.
9于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
10陈秀芳.网站恶意性评估系统的设计与实现[J].计算机时代,2011(7):24-26.

同被引文献173

1解志勇,李其蔓.完善网络爬虫行政规制路径提高数字经济治理水平[J].审计观察,2022(3):4-11. 被引量：1
2饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：5
3金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
4周葆华.社会化媒体时代的舆论研究:概念、议题与创新[J].南京社会科学,2014(1):115-122. 被引量：46
5王来华,林竹,毕宏音.对舆情、民意和舆论三概念异同的初步辨析[J].新视野,2004(5):64-66. 被引量：116
6刘毅.内容分析法在网络舆情信息分析中的应用[J].天津大学学报（社会科学版）,2006,8(4):307-310. 被引量：67
7程学武,龚顺生,李发泉,戴阳,宋娟,王嘉珉,李奉延.采用原子滤光的激光雷达白天探测技术[J].中国激光,2007,34(3):406-410. 被引量：11
8胡守超.基于Python语言的音频捕获及频谱分析设计[J].电脑编程技巧与维护,2009(9):16-18. 被引量：1
9吕韩飞.一种基于遗传算法的采样网页更新策略[J].丽水学院学报,2010,32(5):33-37. 被引量：2
10刘巧红,单贵.Python语言整数运算实现机制分析与性能评估[J].计算机系统应用,2011,20(2):169-172. 被引量：2

引证文献26

1郭银芳,韩凯,郭峰明,王国升,李雪萌.基于互联网的爬虫程序研究[J].计算机应用文摘,2022,38(2):73-75.
2何文娜.上海市体育资源空间数据库构建方法[J].科学技术创新,2022(10):77-80.
3任夏荔.基于Python的古诗文数据爬取与可视化分析[J].电子技术与软件工程,2022(13):186-189.
4李玄锋,夏毅,黄越,袁荣骏,郁佳佳.基于改进YOLOv5的智慧交通电动车头盔佩戴识别系统[J].信息技术与信息化,2022(9):203-206. 被引量：4
5杨孟姣,杜棋东.基于Python爬虫网站数据分析系统设计与实现[J].计算机时代,2022(11):81-83. 被引量：5
6来思琪,孔华锋.基于Flask框架的新闻聚合系统设计与实现[J].电脑编程技巧与维护,2022(11):30-33.
7李心茹,杨宏楼.基于TF-IDF算法的高校后勤服务分析系统设计与实现[J].电脑与信息技术,2022,30(6):76-78. 被引量：1
8陈春晖.动态网页解析下的分布式网络爬虫系统设计[J].无线互联科技,2022,19(20):81-83. 被引量：2
9丁胜,曾嘉,薛冬冬.广东省林草湿数据与国土“三调”数据对接融合方法研究[J].林业与环境科学,2022,38(5):144-150. 被引量：1
10张晨祥,宁璐,冯明歌.基于Python的涉农职位招聘信息爬取与可视化分析[J].计算机时代,2023(2):51-54. 被引量：4

二级引证文献34

1苏明焱.基于Python的招聘网站信息的爬取与数据分析[J].信息与电脑,2022,34(24):193-195. 被引量：2
2王硕,查俊.改进YOLOv5s的电车头盔佩戴检测算法研究[J].蚌埠学院学报,2023,12(5):88-96.
3王腾飞,李宏.基于Python预测公共安全事件发展研究[J].中国新通信,2023,25(15):101-103.
4梁耀,刘亚,刘震峰,吴丽娟.数据对接融合背景下森林资源管理研究——以广西南宁横州市为例[J].广西林业科学,2023,52(5):661-668. 被引量：3
5侯镇锋,滕华,马晓晶.物联网技术支持下的高校精细化后勤保障系统设计[J].信息与电脑,2023,35(15):228-230.
6成海民,付桂琴,贾俊妹,刘瑜珊.数字科技馆智能管理系统设计[J].现代电子技术,2023,46(22):165-169.
7万好,谢叶康,段志应.基于文本挖掘的计算机类招聘数据分析与可视化系统设计[J].电脑与电信,2023(8):29-35. 被引量：1
8杨冰倩.基于Python爬虫的影评情感分析与可视化系统设计[J].无线互联科技,2023,20(20):43-45.
9王姣姣,顾珅,赵淼,周怡杰.基于FineBI的招聘信息数据分析与可视化研究[J].计算机时代,2023(12):15-18. 被引量：2
10吴香艳.基于C#和.NET的班级学生信息管理系统设计与实现[J].无线互联科技,2023,20(22):47-50. 被引量：1

1余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.

电脑与信息技术

2021年第6期

浏览历史

内容加载中请稍等...

基于Python的网络爬虫系统的设计与实现被引量：26

参考文献3

二级参考文献37

共引文献109

同被引文献173

引证文献26

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于Python的网络爬虫系统的设计与实现 被引量：26

参考文献3

二级参考文献37

共引文献109

同被引文献173

引证文献26

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于Python的网络爬虫系统的设计与实现被引量：26