期刊文献+
共找到178篇文章
< 1 2 9 >
每页显示 20 50 100
基于Scrapy爬虫框架的云南农村科技服务平台信息采集系统的研究与实现 被引量:2
1
作者 刘登英 龚力波 +1 位作者 李雯 黄晓辉 《安徽农业科学》 CAS 2018年第35期191-194,共4页
农村信息化是发展现代农业的重要条件,农业信息对农业生产生活具有重要的指导作用,为避免云南农村信息化多头建设、重复建设所引起的资源浪费,开展了云南农村科技服务平台建设,实现了云南农业科技信息的整体运作与资源整合,为相关涉农... 农村信息化是发展现代农业的重要条件,农业信息对农业生产生活具有重要的指导作用,为避免云南农村信息化多头建设、重复建设所引起的资源浪费,开展了云南农村科技服务平台建设,实现了云南农业科技信息的整体运作与资源整合,为相关涉农政府部门、科研院所、企业农户提供信息技术指导。 展开更多
关键词 scrapy爬虫框架 农村科技服务平台 信息采集
下载PDF
基于Scrapy爬虫框架下电商数据分析 被引量:4
2
作者 黄雨辰 童彤 《安阳师范学院学报》 2021年第5期132-136,共5页
电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上... 电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上采集顾客、商品、品牌三方面数据进行整合处理,并将处理结果可视化,展现给电商企业,为电商企业快速了解消费者的消费特点,制定科学化的营销战略提供了数据参考。 展开更多
关键词 scrapy爬虫框架 电商数据 可视化
下载PDF
基于Scrapy爬虫框架的安居客租房数据爬取 被引量:4
3
作者 陈燕 《轻工科技》 2019年第9期74-75,共2页
近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得... 近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得越来越重要。本文基于Scrapy框架设计安居客租房信息的爬取工具,实现对安居客网站下租房关键信息的自动爬取,过滤并存储租房房源信息,建立租房房源信息数据源,为后续的进一步分析数据提供基础。 展开更多
关键词 scrapy框架 租房数据 网络爬虫
下载PDF
基于Scrapy爬虫框架的领域网站文件爬取 被引量:5
4
作者 邹维 李廷元 《现代信息科技》 2020年第21期6-9,共4页
为了提高航行通告文件下载效率、节省人工资源,文章通过Scrapy爬虫框架,结合自然语言处理中的信息,分类爬取各民航局发布的航行通告文本。首先基于网页数据交互模式将网站分类,结合Selenium自动化测试工具进行网页下载。然后使用朴素贝... 为了提高航行通告文件下载效率、节省人工资源,文章通过Scrapy爬虫框架,结合自然语言处理中的信息,分类爬取各民航局发布的航行通告文本。首先基于网页数据交互模式将网站分类,结合Selenium自动化测试工具进行网页下载。然后使用朴素贝叶斯算法将网站所有链接进行分类,区分为目标链接以及非目标链接,从而实现提取航行通告文本链接,此分类模型在领域类网站准确率为95.97%。 展开更多
关键词 scrapy 爬虫 SELENIUM 朴素贝叶斯
下载PDF
Scrapy框架辅助下的Python爬虫系统研究
5
作者 吕新超 《电脑知识与技术》 2024年第7期49-52,56,共5页
为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书... 为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书名称、价格、定价、作者和销量排名等。研究结果表明,通过对主流网站的信息提取实验,在实际应用中展示了该方法取得了良好的效果,可以成功提出需要的信息,并根据提取出的图书价格和销量排名信息可以分析出价格与销量之间的关系,实现了对大型网站的信息提取任务。研究为爬虫技术在数据采集和分析领域的应用提供了有力的支持,为信息爬取与处理提供了新的解决方案。 展开更多
关键词 网络爬虫 scrapy框架 PYTHON语言 数据采集
下载PDF
基于Scrapy框架的互联网招聘信息可视化技术研究
6
作者 郑灿伟 贺丹 +3 位作者 罗嘉惠 李琼娜 潘泽松 钟颖棋 《科技与创新》 2024年第6期6-10,共5页
互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预... 互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预处理、数据分析、数据可视化等一系列操作实现招聘信息的智能化分析。一方面能够及时了解招聘岗位的详细需求情况,为高校毕业生求职指明方向;另一方面便于高校根据市场人才需求情况及时调整人才培养方案,为社会培养出符合市场需求的高质量人才。 展开更多
关键词 scrapy框架 招聘信息 数据分析 可视化
下载PDF
基于Scrapy框架网络爬虫技术的信贷大数据采集与应用研究
7
作者 郑俊海 谢美婧 黄恩若 《移动信息》 2023年第6期228-230,共3页
大数据技术为解决信息不对称问题提供了良好的思路,文中基于Scrapy框架网络爬虫技术,使企业可以获取更多用户的信贷信息,确保数据的完整性、可靠性,为信贷决策提供有效支撑。同时,文中基于Scrapy框架网络爬虫技术,提出了信贷大数据采集... 大数据技术为解决信息不对称问题提供了良好的思路,文中基于Scrapy框架网络爬虫技术,使企业可以获取更多用户的信贷信息,确保数据的完整性、可靠性,为信贷决策提供有效支撑。同时,文中基于Scrapy框架网络爬虫技术,提出了信贷大数据采集系统的设计方案,从而在互联网中获取更多有效数据,解决了企业信贷信息的不对称问题,减少了信贷风险。 展开更多
关键词 scrapy框架 大数据 信贷
下载PDF
基于Scrapy的网络爬虫系统框架设计与实现 被引量:10
8
作者 王磊 刘晓丹 《微型电脑应用》 2019年第4期48-50,共3页
研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实... 研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实现,综合MongoDB及Redis,完成了系统数据库方案的设计,从而提高用户获取信息的速度和质量。 展开更多
关键词 scrapy 网络爬虫 系统框架设计 数据库设计
下载PDF
基于Scrapy框架的微博用户信息采集系统设计与实现
9
作者 朱烨行 赵宝莹 +2 位作者 张明杰 魏笑笑 卫昆 《现代信息科技》 2023年第24期41-44,48,共5页
为深入了解新浪微博用户的有关情况,从中找出最有影响力的微博用户,发现当前新浪微博中的意见领袖,需要知道每位微博用户迄今为止已发表的微博数、关注数和粉丝数等信息。为此使用Python语言设计实现了一个基于Scrapy框架的网络爬虫,该... 为深入了解新浪微博用户的有关情况,从中找出最有影响力的微博用户,发现当前新浪微博中的意见领袖,需要知道每位微博用户迄今为止已发表的微博数、关注数和粉丝数等信息。为此使用Python语言设计实现了一个基于Scrapy框架的网络爬虫,该爬虫根据输入的微博用户标识号ID抓取该用户目前已发表的微博数、关注数和粉丝数等信息。由于要连续多次访问微博网站,为了不让微博网站拒绝访问,在设计的爬虫中使用了用户代理和IP代理,其中IP代理选用隧道代理这一动态类型。实验结果表明下载七千多位微博用户的信息用时6小时22分钟。 展开更多
关键词 scrapy 网络爬虫 微博 用户代理 IP代理
下载PDF
基于Scrapy框架的爬虫设计 被引量:12
10
作者 王海玲 周志彬 《软件导刊》 2020年第4期224-228,共5页
利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Panda... 利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Pandas库进行提取排列,并利用Pyecharts库生成可视化图表的html页面;最后修改url中的setoff属性,通过改变starTtime的值,成功获取了更多评论。结果表明,比正常获取评论数的最大值990条多了16倍。 展开更多
关键词 scrapy框架 爬虫 数据可视化
下载PDF
基于Scrapy框架的爬虫和反爬虫研究 被引量:24
11
作者 韩贝 马明栋 王得玉 《计算机技术与发展》 2019年第2期139-142,共4页
伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。... 伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。网络爬虫又称为网络蜘蛛或网络机器人,可以按照使用人定制的规则,短时间内在万维网上搜集大量特定信息。网络爬虫在爬取信息的同时,也带了一些问题,如大量信息被非正常获取,是一种损失,同时,大量爬虫对网站维护也是一个巨大的负担。如何在维护网民正常访问的前提下,有效阻止这些爬虫就显得十分重要。因此,文中主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫,对目前网站常用的一些反爬虫手段进行分析,基于Scrapy框架以及具体网站,举例说明爬虫如何应对网站这些反爬措施。 展开更多
关键词 网站 网络爬虫 爬虫 PYTHON scrapy框架
下载PDF
基于Scrapy框架的网络爬虫抓取实现 被引量:2
12
作者 聂莉娟 方志伟 李瑞霞 《软件》 2022年第11期18-20,共3页
随着互联网的发展,网络数据覆盖了各个领域,但随着网络数据量的增加和数据格式的多样化,用户从海量数据中获取有价值的数据变得越来越困难。目前国内外对数据采集技术进行了研究,发现通过网络爬虫技术可以自动获取网络资源。本文以南京... 随着互联网的发展,网络数据覆盖了各个领域,但随着网络数据量的增加和数据格式的多样化,用户从海量数据中获取有价值的数据变得越来越困难。目前国内外对数据采集技术进行了研究,发现通过网络爬虫技术可以自动获取网络资源。本文以南京市二手房信息为例,设计了一个基于Scrapy框架的爬虫程序,对中西部部分地区的二手房信息进行抓取和存储,最后运用Excel数据分析,对南京市二手房资源按区域、住房类型进行分析。结果表明,该程序能够自动采集安居客户的住房信息,提高了用户获取信息的速度和质量,为用户数据分析提供了数据源。 展开更多
关键词 scrapy PYTHON 网络爬虫 大数据
下载PDF
基于scrapy框架下网络爬虫的开发与实现 被引量:6
13
作者 鲁鑫 肖小玲 《电脑知识与技术》 2021年第23期134-136,共3页
本文先简述scrapy框架的平台架构,然后介绍了网络爬虫的流程,并说明了爬虫程序的设计与实现的基本流程。基于这些技术,本文设计实现了基于Scrapy框架下的网络爬虫。本文给出了网络爬虫的主要流程,以及主要的模块,包括item模块、spider... 本文先简述scrapy框架的平台架构,然后介绍了网络爬虫的流程,并说明了爬虫程序的设计与实现的基本流程。基于这些技术,本文设计实现了基于Scrapy框架下的网络爬虫。本文给出了网络爬虫的主要流程,以及主要的模块,包括item模块、spider模块以及scheduler模块。并且,本文对网络爬虫的具体实现进行了介绍,包括UA的实现、页面抓取的实现、数据提取的实现等。最后,本设计在Linux操作系统下进行了相关测试。对网络爬虫的功能和性能进行了测试,爬虫的运行总体来说较为顺利,且对电脑性能的要求不高。该爬虫基本完成了本文的研究目的。通过本次的研究,对网络爬虫的设计与实现有了更深的理解。也对scrapy框架有了更加深刻的认识。 展开更多
关键词 网络爬虫 scrapy框架 数据提取 页面抓取
下载PDF
Scrapy框架下区域人口数据爬虫的设计与实现 被引量:8
14
作者 李通 姚新强 《软件导刊》 2021年第11期152-157,共6页
防震减灾对策研究中,区域人口数据起着至关重要的参考作用。用区域人口数据乘以一定震级下对应人口的伤亡率,可以初步判断该区域因地震导致的人员伤亡数。为减小在传统搜索引擎下人工采集数据出现的误差,提高采集海量人口数据的工作效率... 防震减灾对策研究中,区域人口数据起着至关重要的参考作用。用区域人口数据乘以一定震级下对应人口的伤亡率,可以初步判断该区域因地震导致的人员伤亡数。为减小在传统搜索引擎下人工采集数据出现的误差,提高采集海量人口数据的工作效率,以北京市人口数据为例,首先使用Xpath方式分析网页结构布局和数据分布,利用正则表达式进行数据筛选,再对网页进行多层URL爬取,直至获取到北京市社区一级的6859条数据,最后将其保存至MySQL数据库中进行持久化存储。实验结果表明,该爬虫能够有效避免人工采集数据过程中出现的数据误差,有效数据率达83.1%。数据采集过程达到高效、准确及可视化要求。 展开更多
关键词 scrapy PYTHON 数据爬取 地理人口数据 爬虫
下载PDF
基于Scrapy框架的分布式爬虫设计与实现 被引量:13
15
作者 王芳 张睿 宫海瑞 《信息技术》 2019年第3期96-101,共6页
网络爬虫是近些年来较为热门的技术之一,它被广泛应用于搜索引擎技术,现今技术不断发展成熟,爬虫不仅仅应用于搜索引擎的信息搜集,更多应用于定向信息的采集,比如房价、招聘信息、用户信息等等。文中以Python及其框架Scrapy环境为基础,... 网络爬虫是近些年来较为热门的技术之一,它被广泛应用于搜索引擎技术,现今技术不断发展成熟,爬虫不仅仅应用于搜索引擎的信息搜集,更多应用于定向信息的采集,比如房价、招聘信息、用户信息等等。文中以Python及其框架Scrapy环境为基础,以知乎网站为例,来爬取用户信息。通过使用Scrapy框架实现爬虫,分析整个爬取的原理,了解爬取的运行流程,特别对反爬虫策略进行优化,实现程序在远程服务器的部署,将信息存储到时下较为流行的No-SQL数据库中,最后对爬取数据进行分析与展示。 展开更多
关键词 网络爬虫 scrapy 分布式
下载PDF
基于SCRAPY框架的网络爬虫封锁技术破解研究 被引量:1
16
作者 陈辉 《科技视界》 2020年第6期224-225,共2页
本文阐述了网络爬虫及封锁网络爬虫最常用的四种技术:时间间隔封锁,Cookie封锁,User-Agent封锁,IP封锁;分析了上述封锁技术的基本原理,提出了针对上述封锁技术的破解方法,并给出了基于Scrapy框架的破解封锁实现代码。
关键词 scrapy 网络爬虫 时间间隔封锁 Cookie封锁 User-Agent封锁 IP封锁
下载PDF
基于Scrapy框架的网络爬虫分析与抓取实现 被引量:9
17
作者 张小秋 《电脑编程技巧与维护》 2022年第2期18-19,44,共3页
基于Scrapy框架设计网络爬虫程序,爬取某市二手房数据,并将分析结果通过统计图呈现出来。通过分析网站数据结构及Scrapy框架网络爬虫设计思路,详细展示了基于Scrapy框架进行数据爬取、数据分析的实现方法,并对网络爬虫存在的安全问题、... 基于Scrapy框架设计网络爬虫程序,爬取某市二手房数据,并将分析结果通过统计图呈现出来。通过分析网站数据结构及Scrapy框架网络爬虫设计思路,详细展示了基于Scrapy框架进行数据爬取、数据分析的实现方法,并对网络爬虫存在的安全问题、法律问题进行了说明。 展开更多
关键词 scrapy框架 网络爬虫 贝壳网 Matplotlib工具包
下载PDF
基于Python和Scrapy框架的网页爬虫设计与实现 被引量:7
18
作者 陈皓 周传生 《电脑知识与技术》 2021年第13期3-5,共3页
针对不同的网页数据环境设计有效的爬虫方案,更加有助于爬取信息的准度和效度。文中以Python及其Scrapy框架为基础,以贝壳网为例,通过对网站的页面源码结构进行深入分析,编写了行之有效的爬虫文件来获取目标网站信息。该设计方法可以应... 针对不同的网页数据环境设计有效的爬虫方案,更加有助于爬取信息的准度和效度。文中以Python及其Scrapy框架为基础,以贝壳网为例,通过对网站的页面源码结构进行深入分析,编写了行之有效的爬虫文件来获取目标网站信息。该设计方法可以应用到不同的多级页面信息类型网站,为基于Web的数据分析提供策略采集和分析支持。 展开更多
关键词 大数据 网络爬虫 scrapy框架 数据采集
下载PDF
基于Scrapy框架的分布式网络爬虫的研究与实现 被引量:11
19
作者 华云彬 匡芳君 《智能计算机与应用》 2018年第5期46-50,共5页
针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算法、Redis数据库、Mongo DB数据库等方面的技术,设计和实现了基... 针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算法、Redis数据库、Mongo DB数据库等方面的技术,设计和实现了基于Scrapy框架的分布式网络爬虫。最后通过对该爬虫的对比测试分析,得出了如何提高爬虫的爬取效率和避免网站反爬的应对策略。 展开更多
关键词 网络爬虫 分布式 scrapy REDIS
下载PDF
基于Selenium框架的反爬虫程序设计与实现
20
作者 王帅 《信息记录材料》 2023年第6期86-88,共3页
大数据时代数据的重要性受到了人们的广泛重视。如何有效保护网络数据资源,精准防控网络爬虫程序对数据进行不当收集和对服务器资源造成破坏,适当的反爬虫程序的设计与实现尤为重要。反爬虫程序能够实现自动监控网络爬虫程序带来的破坏... 大数据时代数据的重要性受到了人们的广泛重视。如何有效保护网络数据资源,精准防控网络爬虫程序对数据进行不当收集和对服务器资源造成破坏,适当的反爬虫程序的设计与实现尤为重要。反爬虫程序能够实现自动监控网络爬虫程序带来的破坏,提高人工监控数据的效率。本文实现了基于Selenium框架的反爬虫程序设计,经过实际的数据测试,融合了Selenium框架的反爬虫程序设计能够在一定程度上提高网站的反爬虫效率。 展开更多
关键词 大数据 爬虫程序 Selenium框架 爬虫
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部