期刊文献+
共找到172篇文章
< 1 2 9 >
每页显示 20 50 100
基于Scrapy框架的互联网招聘信息可视化技术研究
1
作者 郑灿伟 贺丹 +3 位作者 罗嘉惠 李琼娜 潘泽松 钟颖棋 《科技与创新》 2024年第6期6-10,共5页
互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预... 互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预处理、数据分析、数据可视化等一系列操作实现招聘信息的智能化分析。一方面能够及时了解招聘岗位的详细需求情况,为高校毕业生求职指明方向;另一方面便于高校根据市场人才需求情况及时调整人才培养方案,为社会培养出符合市场需求的高质量人才。 展开更多
关键词 scrapy框架 招聘信息 数据分析 可视化
下载PDF
Scrapy框架辅助下的Python爬虫系统研究
2
作者 吕新超 《电脑知识与技术》 2024年第7期49-52,56,共5页
为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书... 为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书名称、价格、定价、作者和销量排名等。研究结果表明,通过对主流网站的信息提取实验,在实际应用中展示了该方法取得了良好的效果,可以成功提出需要的信息,并根据提取出的图书价格和销量排名信息可以分析出价格与销量之间的关系,实现了对大型网站的信息提取任务。研究为爬虫技术在数据采集和分析领域的应用提供了有力的支持,为信息爬取与处理提供了新的解决方案。 展开更多
关键词 网络爬虫 scrapy框架 PYTHON语言 数据采集
下载PDF
基于Scrapy框架的分布式网络爬虫系统设计
3
作者 何佳知 《电子产品世界》 2024年第6期31-34,共4页
为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页... 为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页下载等模块。最后,测试系统性能。结果显示,设计的系统具有网页抓取成功率高、运行效率高等特点,符合预期设计标准和要求,可以为相关人员提供有效的借鉴和参考。 展开更多
关键词 scrapy框架 分布式 网络爬虫系统
下载PDF
基于Scrapy的分布式爬虫系统的设计与实现 被引量:18
4
作者 李代祎 谢丽艳 +1 位作者 钱慎一 吴怀广 《湖北民族学院学报(自然科学版)》 CAS 2017年第3期317-322,共6页
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不... 随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定. 展开更多
关键词 scrapy 分布式 scrapy-Reids 网络爬虫 Mongo DB 数据存储
下载PDF
基于Scrapy的深层网络爬虫研究 被引量:29
5
作者 刘宇 郑成焕 《软件》 2017年第7期111-114,共4页
随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的。但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍。... 随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的。但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍。传统的爬虫对表层网数据进行获取已经无法满足我们的需求,同时因为深层网数据通常没有各种复杂的标签结构等,使得其本身更加清晰,干净,故而我们深入研究深层网络爬虫是非常有必要的。本文将会通过Python的Scrapy爬虫框架,对深层网络爬虫进行研究,通过分析深层网络特点制定合适的Scrapy爬虫策略,最后通过实际操作,对指定的爬虫策略进行验证。 展开更多
关键词 深层网 网络爬虫 scrapy PYTHON
下载PDF
基于Scrapy的网络爬虫系统框架设计与实现 被引量:10
6
作者 王磊 刘晓丹 《微型电脑应用》 2019年第4期48-50,共3页
研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实... 研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实现,综合MongoDB及Redis,完成了系统数据库方案的设计,从而提高用户获取信息的速度和质量。 展开更多
关键词 scrapy 网络爬虫 系统框架设计 数据库设计
下载PDF
基于Scrapy的工业漏洞爬虫设计 被引量:6
7
作者 孙歆 戴桦 +1 位作者 孔晓昀 赵明明 《网络空间安全》 2017年第1期66-71,共6页
工业控制系统的漏洞是工业安全中极其重要的资源信息,也是对工控系统进行威胁分析和安全等级鉴定的重要依据。论文设计实现了一个基于Scrapy的工业漏洞网络爬虫,能对工控系统安全漏洞网站上的漏洞信息进行抓取和分析,并进行结构化处理,... 工业控制系统的漏洞是工业安全中极其重要的资源信息,也是对工控系统进行威胁分析和安全等级鉴定的重要依据。论文设计实现了一个基于Scrapy的工业漏洞网络爬虫,能对工控系统安全漏洞网站上的漏洞信息进行抓取和分析,并进行结构化处理,为实际项目开发提供重要的漏洞数据信息。 展开更多
关键词 工业控制系统 工控漏洞 爬虫 scrapy
下载PDF
基于Scrapy的中药材网络信息采集方法研究 被引量:2
8
作者 张喜红 王玉香 《江汉大学学报(自然科学版)》 2018年第6期522-527,共6页
以中药材天地网站的信息收集为例,基于Scrapy框架设计了中药材品名、规格、产地、价格等信息提取的爬虫。首先,借助浏览器的网页审查元素工具分析目标网页的结构,并抽取目标元素的XPath路径;接着,采用Scrapy框架构建网络爬虫工程,分别... 以中药材天地网站的信息收集为例,基于Scrapy框架设计了中药材品名、规格、产地、价格等信息提取的爬虫。首先,借助浏览器的网页审查元素工具分析目标网页的结构,并抽取目标元素的XPath路径;接着,采用Scrapy框架构建网络爬虫工程,分别在相应的文件中设计目标元素的解析规则及元素的存储方法;最后利用设计的爬虫采集目标网站信息进行测试,以西洋参、三七为例,将线上采集数据与线下实地调研的数据进行对比。结果表明,所设计的爬虫能快速、高效、准确获取目标网站的信息,且与线下实地调研数据相符,可为后续的研究提供数据支撑。 展开更多
关键词 scrapy 中药材 爬虫
下载PDF
基于Scrapy和Elasticsearch的校园网搜索引擎的研究与实现 被引量:3
9
作者 庄旭菲 田雪 《科技资讯》 2019年第29期12-15,共4页
针对通用搜索引擎无法及时收录校园网内信息和收录时间滞后的问题,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一个完善的校园网搜索引擎解决方案。该文主要分析了Scrapy的运行流程,对Elasticsearch的搜索机制进行了研究,在此基... 针对通用搜索引擎无法及时收录校园网内信息和收录时间滞后的问题,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一个完善的校园网搜索引擎解决方案。该文主要分析了Scrapy的运行流程,对Elasticsearch的搜索机制进行了研究,在此基础上设计了校园网搜索引擎的系统架构,给出了系统的网页抓取模块、索引检索模块、页面展示模块的关键实现技术。最后通过实验验证,相比于传统的通用搜索引擎,该文设计的校园网搜索引擎的搜索结果相关性更好,数量更多,对于校园网内新信息的收录情况更好。 展开更多
关键词 校园网搜索引擎 scrapy Elasticsearch 中文分词
下载PDF
基于Scrapy爬虫框架下电商数据分析 被引量:4
10
作者 黄雨辰 童彤 《安阳师范学院学报》 2021年第5期132-136,共5页
电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上... 电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上采集顾客、商品、品牌三方面数据进行整合处理,并将处理结果可视化,展现给电商企业,为电商企业快速了解消费者的消费特点,制定科学化的营销战略提供了数据参考。 展开更多
关键词 scrapy爬虫框架 电商数据 可视化
下载PDF
基于Scrapy框架的微博用户信息采集系统设计与实现 被引量:2
11
作者 朱烨行 赵宝莹 +2 位作者 张明杰 魏笑笑 卫昆 《现代信息科技》 2023年第24期41-44,48,共5页
为深入了解新浪微博用户的有关情况,从中找出最有影响力的微博用户,发现当前新浪微博中的意见领袖,需要知道每位微博用户迄今为止已发表的微博数、关注数和粉丝数等信息。为此使用Python语言设计实现了一个基于Scrapy框架的网络爬虫,该... 为深入了解新浪微博用户的有关情况,从中找出最有影响力的微博用户,发现当前新浪微博中的意见领袖,需要知道每位微博用户迄今为止已发表的微博数、关注数和粉丝数等信息。为此使用Python语言设计实现了一个基于Scrapy框架的网络爬虫,该爬虫根据输入的微博用户标识号ID抓取该用户目前已发表的微博数、关注数和粉丝数等信息。由于要连续多次访问微博网站,为了不让微博网站拒绝访问,在设计的爬虫中使用了用户代理和IP代理,其中IP代理选用隧道代理这一动态类型。实验结果表明下载七千多位微博用户的信息用时6小时22分钟。 展开更多
关键词 scrapy 网络爬虫 微博 用户代理 IP代理
下载PDF
基于Scrapy框架的爬虫设计 被引量:12
12
作者 王海玲 周志彬 《软件导刊》 2020年第4期224-228,共5页
利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Panda... 利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Pandas库进行提取排列,并利用Pyecharts库生成可视化图表的html页面;最后修改url中的setoff属性,通过改变starTtime的值,成功获取了更多评论。结果表明,比正常获取评论数的最大值990条多了16倍。 展开更多
关键词 scrapy框架 爬虫 数据可视化
下载PDF
基于Scrapy的物流资讯网站群爬虫系统设计与实现 被引量:6
13
作者 邓子云 《物流技术与应用》 2020年第8期140-143,共4页
为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计... 为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计和实现上,在Scrapy框架的基础上重点研发了该系统的网页数据库、数据项、网站群爬虫、项目管道、2个中间件、Scrapy配置6个模块。经过实验,共爬取了10个物流资讯网站的85.85万个网页,爬取平均速度峰值达到22.3个/秒。 展开更多
关键词 scrapy 物流资讯 爬虫系统 架构设计 系统实现
下载PDF
基于Scrapy和casperjs的电子商务网站信息采集系统研究 被引量:5
14
作者 高荣 《数字技术与应用》 2015年第3期67-68,共2页
针对大数据时代用户对电子商务信息采集与分析的需求,设计并实现了一个高扩展性的基于Scrapy的电商网站信息采集系统,能解决异步数据加载带来的数据采集困难的问题,系统采用了casperjs、redis、graphite等框架和技术进一步增强了对电商... 针对大数据时代用户对电子商务信息采集与分析的需求,设计并实现了一个高扩展性的基于Scrapy的电商网站信息采集系统,能解决异步数据加载带来的数据采集困难的问题,系统采用了casperjs、redis、graphite等框架和技术进一步增强了对电商内容爬取的适应能力和可扩展性。系统能够工作在云计算环境下,具有非常高的应用价值。 展开更多
关键词 电子商务 scrapy casperjs 信息采集
下载PDF
基于Scrapy-Redis的分布式爬取当当网图书数据 被引量:4
15
作者 胡学军 李嘉诚 《软件工程》 2022年第10期8-11,共4页
单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究... 单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究,分析影响其性能的参数,将算法集成到Scrapy-Redis的Scheduler的去重模块中。系统使用一台主机做Master,两台从机做Slave,最终运行1 小时后,抓取图书信息18,000余条。 展开更多
关键词 网络爬虫 scrapy框架 scrapy-Redis框架 布隆过滤器算法
下载PDF
基于Scrapy的房产信息爬取系统设计 被引量:1
16
作者 曾水新 黄日胜 《电脑编程技巧与维护》 2022年第12期26-28,共3页
房价评估系统的模型训练需要海量的数据集,基于Scrapy框架设计并实现了一个房产信息爬取系统,用于爬取网站的房产信息。系统先爬取列表页,获取详情页的URL并入库,然后批量爬取详情页,解析详情页里的房产信息。通过校验数据格式、补全缺... 房价评估系统的模型训练需要海量的数据集,基于Scrapy框架设计并实现了一个房产信息爬取系统,用于爬取网站的房产信息。系统先爬取列表页,获取详情页的URL并入库,然后批量爬取详情页,解析详情页里的房产信息。通过校验数据格式、补全缺失项、去除重复数据、检测异常数据等方式进行数据清洗,得到符合条件的房产数据,系统通过设置抓取频率以及改变User-Agent、IP等方式,降低服务器压力、防止拒绝访问。 展开更多
关键词 PYTHON语言 scrapy框架 网络爬虫 数据采集 房产信息
下载PDF
基于Scrapy爬虫框架的安居客租房数据爬取 被引量:4
17
作者 陈燕 《轻工科技》 2019年第9期74-75,共2页
近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得... 近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得越来越重要。本文基于Scrapy框架设计安居客租房信息的爬取工具,实现对安居客网站下租房关键信息的自动爬取,过滤并存储租房房源信息,建立租房房源信息数据源,为后续的进一步分析数据提供基础。 展开更多
关键词 scrapy框架 租房数据 网络爬虫
下载PDF
基于Scrapy框架的网站数据抓爬的技术实现 被引量:3
18
作者 欧阳元东 《电子制作》 2020年第4期49-50,29,共3页
从网页里爬取需要的数据是数据分析的重要前提,而爬取数据工具很多,基于Scrapy框架的爬虫工具就是其中之一。该工具有爬取速度快,自动调节爬取机制,吞吐量大^([1])等优点而备受青睐。本文通过介绍Scrapy框架的运行机制、实现网络数据爬... 从网页里爬取需要的数据是数据分析的重要前提,而爬取数据工具很多,基于Scrapy框架的爬虫工具就是其中之一。该工具有爬取速度快,自动调节爬取机制,吞吐量大^([1])等优点而备受青睐。本文通过介绍Scrapy框架的运行机制、实现网络数据爬取技术爬取来帮助读者理解与学习基于Scrapy框架的爬虫技术。 展开更多
关键词 scrapy 网站数据 爬虫
下载PDF
基于Scrapy框架爬取豆瓣图书的设计与实现 被引量:3
19
作者 史媛 《山西电子技术》 2022年第4期75-77,86,共4页
Scrapy技术已普遍应用于自动化测试、数据挖掘等领域中,利用Scrapy可以快速高效地爬取目标数据。本文对豆瓣图书前250排名的图书信息网页分析,基于Scrapy框架,使用Python语言对所需要的信息进行代码编写,将爬取到的结果保存到文件中,为... Scrapy技术已普遍应用于自动化测试、数据挖掘等领域中,利用Scrapy可以快速高效地爬取目标数据。本文对豆瓣图书前250排名的图书信息网页分析,基于Scrapy框架,使用Python语言对所需要的信息进行代码编写,将爬取到的结果保存到文件中,为后续数据分析做准备。 展开更多
关键词 scrapy框架 PYTHON语言 爬虫
下载PDF
基于Scrapy的论文引用爬虫的设计与实现 被引量:2
20
作者 鲁继文 《现代计算机》 2017年第6期131-133,共3页
互联网的迅速发展对于信息的发现和搜集带来巨大的挑战,至今爬虫技术已经成为互联网研究热点之一。基于Scrapy设计一个采集网页上面引用的作者和引用信息的爬虫,系统运行结果显示所设计的爬虫对于爬取引用信息,并将其整理成便于存储和... 互联网的迅速发展对于信息的发现和搜集带来巨大的挑战,至今爬虫技术已经成为互联网研究热点之一。基于Scrapy设计一个采集网页上面引用的作者和引用信息的爬虫,系统运行结果显示所设计的爬虫对于爬取引用信息,并将其整理成便于存储和理解的结果有较好的效果。 展开更多
关键词 scrapy 爬虫 引用爬取
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部