期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
基于Scrapy框架的互联网招聘信息可视化技术研究
1
作者 郑灿伟 贺丹 +3 位作者 罗嘉惠 李琼娜 潘泽松 钟颖棋 《科技与创新》 2024年第6期6-10,共5页
互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预... 互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预处理、数据分析、数据可视化等一系列操作实现招聘信息的智能化分析。一方面能够及时了解招聘岗位的详细需求情况,为高校毕业生求职指明方向;另一方面便于高校根据市场人才需求情况及时调整人才培养方案,为社会培养出符合市场需求的高质量人才。 展开更多
关键词 scrapy框架 招聘信息 数据分析 可视化
下载PDF
Scrapy框架辅助下的Python爬虫系统研究
2
作者 吕新超 《电脑知识与技术》 2024年第7期49-52,56,共5页
为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书... 为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书名称、价格、定价、作者和销量排名等。研究结果表明,通过对主流网站的信息提取实验,在实际应用中展示了该方法取得了良好的效果,可以成功提出需要的信息,并根据提取出的图书价格和销量排名信息可以分析出价格与销量之间的关系,实现了对大型网站的信息提取任务。研究为爬虫技术在数据采集和分析领域的应用提供了有力的支持,为信息爬取与处理提供了新的解决方案。 展开更多
关键词 网络爬虫 scrapy框架 PYTHON语言 数据采集
下载PDF
基于Scrapy框架的分布式网络爬虫系统设计
3
作者 何佳知 《电子产品世界》 2024年第6期31-34,共4页
为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页... 为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页下载等模块。最后,测试系统性能。结果显示,设计的系统具有网页抓取成功率高、运行效率高等特点,符合预期设计标准和要求,可以为相关人员提供有效的借鉴和参考。 展开更多
关键词 scrapy框架 分布式 网络爬虫系统
下载PDF
基于Scrapy框架网络爬虫技术的信贷大数据采集与应用研究
4
作者 郑俊海 谢美婧 黄恩若 《移动信息》 2023年第6期228-230,共3页
大数据技术为解决信息不对称问题提供了良好的思路,文中基于Scrapy框架网络爬虫技术,使企业可以获取更多用户的信贷信息,确保数据的完整性、可靠性,为信贷决策提供有效支撑。同时,文中基于Scrapy框架网络爬虫技术,提出了信贷大数据采集... 大数据技术为解决信息不对称问题提供了良好的思路,文中基于Scrapy框架网络爬虫技术,使企业可以获取更多用户的信贷信息,确保数据的完整性、可靠性,为信贷决策提供有效支撑。同时,文中基于Scrapy框架网络爬虫技术,提出了信贷大数据采集系统的设计方案,从而在互联网中获取更多有效数据,解决了企业信贷信息的不对称问题,减少了信贷风险。 展开更多
关键词 scrapy框架 大数据 信贷
下载PDF
基于Scrapy框架的爬虫设计 被引量:12
5
作者 王海玲 周志彬 《软件导刊》 2020年第4期224-228,共5页
利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Panda... 利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Pandas库进行提取排列,并利用Pyecharts库生成可视化图表的html页面;最后修改url中的setoff属性,通过改变starTtime的值,成功获取了更多评论。结果表明,比正常获取评论数的最大值990条多了16倍。 展开更多
关键词 scrapy框架 爬虫 数据可视化
下载PDF
基于Scrapy框架的爬虫和反爬虫研究 被引量:24
6
作者 韩贝 马明栋 王得玉 《计算机技术与发展》 2019年第2期139-142,共4页
伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。... 伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。网络爬虫又称为网络蜘蛛或网络机器人,可以按照使用人定制的规则,短时间内在万维网上搜集大量特定信息。网络爬虫在爬取信息的同时,也带了一些问题,如大量信息被非正常获取,是一种损失,同时,大量爬虫对网站维护也是一个巨大的负担。如何在维护网民正常访问的前提下,有效阻止这些爬虫就显得十分重要。因此,文中主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫,对目前网站常用的一些反爬虫手段进行分析,基于Scrapy框架以及具体网站,举例说明爬虫如何应对网站这些反爬措施。 展开更多
关键词 网站 网络爬虫 反爬虫 PYTHON scrapy框架
下载PDF
基于scrapy框架下网络爬虫的开发与实现 被引量:6
7
作者 鲁鑫 肖小玲 《电脑知识与技术》 2021年第23期134-136,共3页
本文先简述scrapy框架的平台架构,然后介绍了网络爬虫的流程,并说明了爬虫程序的设计与实现的基本流程。基于这些技术,本文设计实现了基于Scrapy框架下的网络爬虫。本文给出了网络爬虫的主要流程,以及主要的模块,包括item模块、spider... 本文先简述scrapy框架的平台架构,然后介绍了网络爬虫的流程,并说明了爬虫程序的设计与实现的基本流程。基于这些技术,本文设计实现了基于Scrapy框架下的网络爬虫。本文给出了网络爬虫的主要流程,以及主要的模块,包括item模块、spider模块以及scheduler模块。并且,本文对网络爬虫的具体实现进行了介绍,包括UA的实现、页面抓取的实现、数据提取的实现等。最后,本设计在Linux操作系统下进行了相关测试。对网络爬虫的功能和性能进行了测试,爬虫的运行总体来说较为顺利,且对电脑性能的要求不高。该爬虫基本完成了本文的研究目的。通过本次的研究,对网络爬虫的设计与实现有了更深的理解。也对scrapy框架有了更加深刻的认识。 展开更多
关键词 网络爬虫 scrapy框架 数据提取 页面抓取
下载PDF
基于Scrapy框架爬取豆瓣图书的设计与实现 被引量:3
8
作者 史媛 《山西电子技术》 2022年第4期75-77,86,共4页
Scrapy技术已普遍应用于自动化测试、数据挖掘等领域中,利用Scrapy可以快速高效地爬取目标数据。本文对豆瓣图书前250排名的图书信息网页分析,基于Scrapy框架,使用Python语言对所需要的信息进行代码编写,将爬取到的结果保存到文件中,为... Scrapy技术已普遍应用于自动化测试、数据挖掘等领域中,利用Scrapy可以快速高效地爬取目标数据。本文对豆瓣图书前250排名的图书信息网页分析,基于Scrapy框架,使用Python语言对所需要的信息进行代码编写,将爬取到的结果保存到文件中,为后续数据分析做准备。 展开更多
关键词 scrapy框架 PYTHON语言 爬虫
下载PDF
基于Scrapy框架影视信息爬取的设计与实现 被引量:2
9
作者 丁忠祥 杨彦红 杜彦明 《北京印刷学院学报》 2018年第9期92-97,共6页
为了充分利用网上大数据资源,让用户能够方便利用影视信息,采用基于Scrapy框架的爬虫技术,开发了检索电影信息的搜索引擎。对豆瓣网站的影视信息进行爬取,以方便用户准确获取最新的电影信息。
关键词 数据 互联网 搜索引擎 网络爬虫 scrapy框架
下载PDF
基于Scrapy框架的网络爬虫分析与抓取实现 被引量:9
10
作者 张小秋 《电脑编程技巧与维护》 2022年第2期18-19,44,共3页
基于Scrapy框架设计网络爬虫程序,爬取某市二手房数据,并将分析结果通过统计图呈现出来。通过分析网站数据结构及Scrapy框架网络爬虫设计思路,详细展示了基于Scrapy框架进行数据爬取、数据分析的实现方法,并对网络爬虫存在的安全问题、... 基于Scrapy框架设计网络爬虫程序,爬取某市二手房数据,并将分析结果通过统计图呈现出来。通过分析网站数据结构及Scrapy框架网络爬虫设计思路,详细展示了基于Scrapy框架进行数据爬取、数据分析的实现方法,并对网络爬虫存在的安全问题、法律问题进行了说明。 展开更多
关键词 scrapy框架 网络爬虫 贝壳网 Matplotlib工具包
下载PDF
基于Python和Scrapy框架的网页爬虫设计与实现 被引量:7
11
作者 陈皓 周传生 《电脑知识与技术》 2021年第13期3-5,共3页
针对不同的网页数据环境设计有效的爬虫方案,更加有助于爬取信息的准度和效度。文中以Python及其Scrapy框架为基础,以贝壳网为例,通过对网站的页面源码结构进行深入分析,编写了行之有效的爬虫文件来获取目标网站信息。该设计方法可以应... 针对不同的网页数据环境设计有效的爬虫方案,更加有助于爬取信息的准度和效度。文中以Python及其Scrapy框架为基础,以贝壳网为例,通过对网站的页面源码结构进行深入分析,编写了行之有效的爬虫文件来获取目标网站信息。该设计方法可以应用到不同的多级页面信息类型网站,为基于Web的数据分析提供策略采集和分析支持。 展开更多
关键词 大数据 网络爬虫 scrapy框架 数据采集
下载PDF
基于Scrapy框架的校园搜索引擎设计 被引量:1
12
作者 马威 《科技创新与应用》 2020年第14期84-85,共2页
近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用URL去重策略来提升校... 近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用URL去重策略来提升校园信息的查询效率,使搜索结果达到满意期望值。 展开更多
关键词 搜索引擎 scrapy框架 URL去重
下载PDF
引入Scrapy框架的Python网络爬虫应用研究 被引量:5
13
作者 黎妍 肖卓宇 《福建电脑》 2021年第10期58-60,共3页
为了解决传统网络爬虫对大型Web网站信息提取效率不高的问题,本文提出了一种引入Scrapy框架的Python网络爬虫提取方法。通过对主流网站进行信息提取,本文的方法显示出了较好的应用效果,实现了对大型经典网站的信息提取。
关键词 网络爬虫 Requests API scrapy框架 反爬虫 Robots协议
下载PDF
基于Scrapy框架京东网站笔记本电脑评论数据爬取和分析 被引量:5
14
作者 方芳 《电脑知识与技术》 2020年第6期7-9,共3页
该文基于Scrapy框架对京东网站上笔记本电脑的评论数据进行了爬取,共爬取了32种品牌,选取其中的“联想(Leno vo)拯救者Y7000P”笔记本电脑评论数据进行分析,通过pandas提供的模糊匹配方法提取数据,并对数据进行去重、分词和停用词过滤... 该文基于Scrapy框架对京东网站上笔记本电脑的评论数据进行了爬取,共爬取了32种品牌,选取其中的“联想(Leno vo)拯救者Y7000P”笔记本电脑评论数据进行分析,通过pandas提供的模糊匹配方法提取数据,并对数据进行去重、分词和停用词过滤等处理,使用wordcloud库绘制词云图,呈现出的情感数据为商家和用户提供进一步的决策。 展开更多
关键词 scrapy框架 PYTHON 数据预处理 数据可视化
下载PDF
Scrapy框架下反反爬虫和数据有序性的实现 被引量:1
15
作者 向洋 董林鹭 宋弘 《宜宾学院学报》 2019年第6期42-46,共5页
在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦... 在爬虫获取数据时,由于获取速度过快易被网页反爬虫机制拦截,需要一种规避网页反爬虫的机制.结合目前反爬虫常用的手段,提出了一种反反爬虫机制.首先找到需要进行网页数据爬取的url,在不使用任何反反爬虫机制的情况下观察爬虫程序被拦截的次数,然后针对目标网页反爬虫机制,设计出一种反反爬虫机制.实验结果表明,通过设置随机抽取useragent和随机IP,跟踪目标网页referer,禁用cookies的反反爬机制,可以规避反爬虫的阻挠,使爬虫爬取到目标网页数量增加,成功率和效率都有所提高. 展开更多
关键词 scrapy框架 网络爬虫 数据有序性 反反爬虫机制
下载PDF
基于Scrapy框架的分布式网络爬虫系统设计与实现 被引量:4
16
作者 周毅 李威 +2 位作者 何金 程蕾 柳璐 《现代信息科技》 2021年第19期43-46,共4页
针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用Scrapy框架结合Redis技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于MongoDB数据库内,实现... 针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用Scrapy框架结合Redis技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于MongoDB数据库内,实现对数据信息的实时、有效处理分析。经过实际应用测试,证明基于Scrapy框架的分布式非结构化网络爬虫系统相较于传统单机系统具有更高的效率。 展开更多
关键词 分布式 scrapy框架 网络爬虫
下载PDF
基于Scrapy框架的数据采集系统设计与实现 被引量:2
17
作者 郅芬香 王留芳 《信息记录材料》 2020年第7期130-132,共3页
随着信息技术的不断发展,互联网已经迈入了大数据时代,如何高效地对海量信息数据进行抓取,分析和存储,已经成为当前研究的一个热点。本文使用Scrapy框架设计网络爬虫提取新闻报刊的标题、来源、链接地址、发布时间、正文等,详细介绍数... 随着信息技术的不断发展,互联网已经迈入了大数据时代,如何高效地对海量信息数据进行抓取,分析和存储,已经成为当前研究的一个热点。本文使用Scrapy框架设计网络爬虫提取新闻报刊的标题、来源、链接地址、发布时间、正文等,详细介绍数据采集系统的设计与实现,该方法可以为数据分析项目提供数据采集及分析支持。 展开更多
关键词 大数据 scrapy框架 网络爬虫
下载PDF
基于Scrapy框架的网络爬虫技术应用——以豆瓣网为例
18
作者 阴国溶 李玉香 《中国宽带》 2021年第10期87-89,共3页
本文基于Scrapy框架,以Python语言为脚本,以豆瓣网站为例,设计并实现了对电影网站票房排名TOP250条数据关键字段信息的爬取,以及对爬取数据的过滤提纯,并存储结果数据。可利用该结果做进一步的数据分析处理,得出观众的口味喜好,电影行... 本文基于Scrapy框架,以Python语言为脚本,以豆瓣网站为例,设计并实现了对电影网站票房排名TOP250条数据关键字段信息的爬取,以及对爬取数据的过滤提纯,并存储结果数据。可利用该结果做进一步的数据分析处理,得出观众的口味喜好,电影行情的发展趋势,具有一定的经济效益。 展开更多
关键词 PYTHON scrapy框架 网络爬虫 豆瓣数据
下载PDF
基于Scrapy框架的天气数据采集系统设计
19
作者 徐伟 许鹏 陈浩东 《湖北农机化》 2021年第13期109-111,共3页
互联网发展初期,用户通过访问门户站点的方式搜集自己感兴趣的数据信息。但是随着互联网的发展,汇聚的数据量正在以指数级爆炸式的增长,对用户精确搜集信息的需求造成了困扰。因此,通过网络爬虫(Spider)技术进行高效、快速地数据搜集,... 互联网发展初期,用户通过访问门户站点的方式搜集自己感兴趣的数据信息。但是随着互联网的发展,汇聚的数据量正在以指数级爆炸式的增长,对用户精确搜集信息的需求造成了困扰。因此,通过网络爬虫(Spider)技术进行高效、快速地数据搜集,可以给用户提供一个纯净、可靠地获取信息的方式。本文通过Python语言的Scrapy爬虫框架获取中国天气网的天气数据,让用户能够避开大量无效信息的干扰,高效、快速的完成天气信息的获取。 展开更多
关键词 网络爬虫 PYTHON SPIDER scrapy爬虫框架
下载PDF
基于Scrapy爬虫框架的安居客租房数据爬取 被引量:4
20
作者 陈燕 《轻工科技》 2019年第9期74-75,共2页
近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得... 近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得越来越重要。本文基于Scrapy框架设计安居客租房信息的爬取工具,实现对安居客网站下租房关键信息的自动爬取,过滤并存储租房房源信息,建立租房房源信息数据源,为后续的进一步分析数据提供基础。 展开更多
关键词 scrapy框架 租房数据 网络爬虫
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部