基于Python的聚焦爬虫的初步设计与实现被引量：6

Design and Implementation of Focused Crawler Based on Python

下载PDF

导出

摘要网络爬虫主要分为通用爬虫和聚焦爬虫,前者通常指搜索引擎的爬虫,后者是指针对特定网站的爬虫。聚焦爬虫用于弥补通用搜索引擎的缺陷,应用在定向获取信息的检索工具即垂直搜索引擎上。以豆瓣图书信息获取为例,介绍网络爬虫的工作原理、分类、应用场景和涉及的关键技术,详细研究了基于Python的聚焦爬虫设计与实现的基本方法和流程。 This paper introduces the working principle,classification,application scenarios and key technologies of web crawler.Web crawler is mainly divided into general crawler and focused crawler.The former usually refers to the crawler of search engine,while the latter refers to specific website crawler.Focused crawler is to make up for the defects of general search engine.It is applied to the vertical search engine,which is a retrieval tool for directional information acquisition.Taking Douban book information acquisition as an example,this paper studies the basic method and process of design and implementation of focused crawler based on Python.

作者杜超 DU Chao(Hubei University of Education,Wuhan 430205)

机构地区湖北第二师范学院

出处《现代制造技术与装备》 2020年第12期30-31,共2页 Modern Manufacturing Technology and Equipment

关键词网络爬虫 PYTHON lxml web crawler Python lxml

分类号 TP393.09 [自动化与计算机技术—计算机应用技术] TP312.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献46

1姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31
2蔡能健,刘东浩,邓辉,卫守林,王锋,梅盈,戴伟,刘应波,吴静平.基于Web.py的MUSER软件系统界面实现[J].天文研究与技术,2017,14(2):229-235. 被引量：2
3谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
4余豪士,匡芳君.基于Python的反反爬虫技术分析与应用[J].智能计算机与应用,2018,8(4):112-115. 被引量：14
5陈猛.基于Python的新浪新闻爬虫系统的设计与实现[J].现代信息科技,2018,2(7):111-112. 被引量：4
6贾棋然.基于Python专用型网络爬虫的设计及实现[J].电脑知识与技术,2017,13(4X):47-49. 被引量：12
7刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(5X):19-21. 被引量：20
8蒋阿娟,张文娟.人脸识别综述[J].电脑知识与技术,2019,15(1Z):173-174. 被引量：8
9江衍铭,郝偌楠,李楠楠,汪健.基于静态与动态神经网络的运河水位预报[J].天津大学学报（自然科学与工程技术版）,2017,50(3):245-254. 被引量：9
10果大军.高职移动教务管理信息系统综述[J].科技资讯,2017,15(13):174-175. 被引量：1

引证文献6

1熊国梁,麦强盛.基于Python的国家社科基金项目爬虫的设计和实现——以贫困为主题的立项信息为例[J].信息与电脑,2021,33(9):181-184.
2刘红英,钟冰冰.基于人脸识别的教务安全客户端设计与实现[J].数字技术与应用,2021,39(10):221-224. 被引量：3
3王嘉宝,雒伟群.基于Scrapy框架的电影数据爬取和可视化分析[J].西藏科技,2022(2):64-68. 被引量：6
4李静,单晴晴.基于Python技术的校园网搜索引擎的设计分析[J].信息与电脑,2022,34(16):28-30. 被引量：2
5姜秋香,郭伟鹏,王子龙,欧阳兴涛,隆睿睿.Python语言在水文水资源领域中的应用与展望[J].计算机工程与应用,2023,59(9):46-58. 被引量：5
6黄媛.基于网络爬虫技术的网络招聘信息分析[J].长江工程职业技术学院学报,2024,41(3):30-34.

二级引证文献16

1闵慧.基于微信小程序的口红色号识别系统[J].现代信息科技,2022,6(1):32-35. 被引量：2
2聂莉娟,方志伟,李瑞霞.基于Scrapy框架的网络爬虫抓取实现[J].软件,2022,43(11):18-20. 被引量：4
3谭彬,杜炳德,赵雅琪.基于Inception-V3网络的多任务人脸属性识别研究[J].无线互联科技,2022,19(22):101-104. 被引量：2
4何芳.基于Scrapy的电子商务数据分析系统设计[J].电子技术与软件工程,2022(24):200-204.
5郭婺,郭建,张劲松,石翠萍,刘道森,刘超.基于Python的网络爬虫的设计与实现[J].信息记录材料,2023,24(4):159-162. 被引量：6
6刘廷峰,李江鑫,朱源.基于离线人脸识别的PC身份认证——从静态到活体[J].科技资讯,2023,21(18):4-8.
7赵鹏,苏楠,于慧霞.基于Scrapy的高性能网站状态批量采集系统[J].中国新通信,2023,25(13):48-50.
8朱烨行,赵宝莹,张明杰,魏笑笑,卫昆.基于Scrapy框架的微博用户信息采集系统设计与实现[J].现代信息科技,2023,7(24):41-44.
9宋盼盼,周猛,肖莹.基于python语言的水体营养状态评价系统的设计[J].水利技术监督,2024(1):45-49.
10王纪才,徐启南,袁霄翔.基于Python爬虫的电影数据可视化分析[J].周口师范学院学报,2023,40(5):60-65. 被引量：1

1王松,刘洪基,叶晓波.一种基于Heritrix 可配置主题的聚焦爬虫方法[J].楚雄师范学院学报,2020,35(6):124-131. 被引量：1

现代制造技术与装备

2020年第12期

浏览历史

内容加载中请稍等...

基于Python的聚焦爬虫的初步设计与实现被引量：6

同被引文献46

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Python的聚焦爬虫的初步设计与实现 被引量：6

同被引文献46

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Python的聚焦爬虫的初步设计与实现被引量：6