期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种基于Scrapy-Redis的分布式微博数据采集方案 被引量:11
1
作者 邓万宇 刘光达 董莹莹 《信息技术》 2018年第11期59-62,共4页
作为向网民展示世界和汇聚民意的重要渠道,微博正日益成为网络舆情的传播高地。如何对微博数据进行灵活高效地采集并存储,对后续的数据挖掘与分析工作起到重要作用。文中在分析新浪微博站点特征结构的基础上设计了一种局部最佳搜索策略... 作为向网民展示世界和汇聚民意的重要渠道,微博正日益成为网络舆情的传播高地。如何对微博数据进行灵活高效地采集并存储,对后续的数据挖掘与分析工作起到重要作用。文中在分析新浪微博站点特征结构的基础上设计了一种局部最佳搜索策略,采用Python开源框架Scrapy搭配Redis数据库,设计实现了一套抓取速度快、定制性强、扩展性高的分布式爬虫系统,获取的数据具有良好的实时性和准确性,为后续工作提供了有力的数据支撑。 展开更多
关键词 scrapy-redis 局部最佳搜索 分布式 微博数据采集
下载PDF
基于Scrapy-Redis的分布式爬取当当网图书数据 被引量:4
2
作者 胡学军 李嘉诚 《软件工程》 2022年第10期8-11,共4页
单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究... 单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究,分析影响其性能的参数,将算法集成到Scrapy-Redis的Scheduler的去重模块中。系统使用一台主机做Master,两台从机做Slave,最终运行1 小时后,抓取图书信息18,000余条。 展开更多
关键词 网络爬虫 Scrapy框架 scrapy-redis框架 布隆过滤器算法
下载PDF
基于Scrapy-Redis分布式数据采集平台的设计与实现 被引量:7
3
作者 严慧 彭绪富 +2 位作者 朱小婉 熊旭辉 董叶豪 《湖北师范大学学报(自然科学版)》 2019年第1期19-25,共7页
针对微博平台大数据的采集、挖掘、分析等热点问题,深入介绍并分析了采集平台的相关理论技术,通过对采集平台功能结构及后台数据库设计、页面爬取和解析、反爬虫的应用技术设计、分布式策略设计等四个方面的技术研究,设计并实现了一种... 针对微博平台大数据的采集、挖掘、分析等热点问题,深入介绍并分析了采集平台的相关理论技术,通过对采集平台功能结构及后台数据库设计、页面爬取和解析、反爬虫的应用技术设计、分布式策略设计等四个方面的技术研究,设计并实现了一种基于分布式的微博数据采集平台;给出了主从模式系统架构;达到了用户只需根据需要输入待爬取微博页面的ID,并选择要采集的数据类型,即可获得所需数据的目的。经测试,系统搭建成本低,爬取性能高,可运用于微博数据的舆情分析和数据调研等研究方面的基础数据采集。 展开更多
关键词 微博平台 数据采集 分布式 网络爬虫 scrapy-redis
下载PDF
多维布隆算法在Redis指纹自动过期中的应用 被引量:1
4
作者 贾小云 杜晓旭 《计算机应用与软件》 北大核心 2020年第8期33-38,共6页
针对Scrapy-Redis框架占用空间严重,且Redis一旦键过期就会删除全部去重集合内数据的情况,设计基于多维Bloom过滤器的指纹自动过期算法,并采用Python语言实现。实现后的代码通过替换去重类和修改框架内方法等操作,集成到Scrapy-Redis框... 针对Scrapy-Redis框架占用空间严重,且Redis一旦键过期就会删除全部去重集合内数据的情况,设计基于多维Bloom过滤器的指纹自动过期算法,并采用Python语言实现。实现后的代码通过替换去重类和修改框架内方法等操作,集成到Scrapy-Redis框架中。在测试阶段,将使用重构后框架与使用Redis散列表设置指纹过期时间的方法进行了对比,结果显示重构后框架更能在大规模爬虫中节省大量空间,同时能够在满足误判率低于万分之一的情况下实现指纹的自动过期。 展开更多
关键词 多维布隆算法 scrapy-redis 指纹过期 爬虫 亿级规模
下载PDF
基于双缓冲的分布式爬虫调度策略的设计与研究 被引量:2
5
作者 卢照 师军 +1 位作者 张耀午 王琦 《计算机与数字工程》 2022年第8期1686-1690,共5页
互联网的高速发展使得大数据的应用越来越广泛,使得分布式爬虫处于愈来愈重要的地位。目前主流开源爬虫框架在网络通信开销上优化甚少,缺乏一个有效的方案来减少网络开销问题。论文利用对等式架构的爬行器既是任务的消费者又是任务的生... 互联网的高速发展使得大数据的应用越来越广泛,使得分布式爬虫处于愈来愈重要的地位。目前主流开源爬虫框架在网络通信开销上优化甚少,缺乏一个有效的方案来减少网络开销问题。论文利用对等式架构的爬行器既是任务的消费者又是任务的生产者,提出了任务尽量在本地执行的优化方向。基于双缓冲技术实现的大粒度任务动态负载均衡策略,能有效地降低通信频次,基于高速缓存原理的URL判重方案,以“空间换时间”的方式,有效地提升爬虫URL判重性能。实验结果表明,该策略具有良好的扩展性、鲁棒性,能使分布式系统的性能优势得到更为充分的发挥。 展开更多
关键词 分布式爬虫 动态负载均衡 scrapy-redis 双缓冲机制
下载PDF
SNES: Social-Network-Oriented Public Opinion Monitoring Platform Based on ElasticSearch 被引量:1
6
作者 Chuiju You Dongjie Zhu +5 位作者 Yundong Sun Anshan Ye Gangshan Wu Ning Cao Jinming Qiu Helen Min Zhou 《Computers, Materials & Continua》 SCIE EI 2019年第9期1271-1283,共13页
With the rapid development of social network,public opinion monitoring based on social networks is becoming more and more important.Many platforms have achieved some success in public opinion monitoring.However,these ... With the rapid development of social network,public opinion monitoring based on social networks is becoming more and more important.Many platforms have achieved some success in public opinion monitoring.However,these platforms cannot perform well in scalability,fault tolerance,and real-time performance.In this paper,we propose a novel social-network-oriented public opinion monitoring platform based on ElasticSearch(SNES).Firstly,SNES integrates the module of distributed crawler cluster,which provides real-time social media data access.Secondly,SNES integrates ElasticSearch which can store and retrieve massive unstructured data in near real time.Finally,we design subscription module based on Apache Kafka to connect the modules of the platform together in the form of message push and consumption,improving message throughput and the ability of dynamic horizontal scaling.A great number of empirical experiments prove that the platform can adapt well to the social network with highly real-time data and has good performance in public opinion monitoring. 展开更多
关键词 Social network public opinion monitoring elasticsearch scrapy-redis
下载PDF
Scrapy分布式爬虫搜索引擎 被引量:3
7
作者 刘思林 《电脑知识与技术》 2018年第12期186-188,共3页
随着大数据时代的到来,信息的获取与检索尤为重要。如何在海量的数据中快速准确获取到我们需要的内容显得十分重要。通过对网络爬虫的研究和爬虫框架Scrapy的深入探索,结合Redis这种NoSQL数据库搭建分布式爬虫框架,并结合Django框架搭... 随着大数据时代的到来,信息的获取与检索尤为重要。如何在海量的数据中快速准确获取到我们需要的内容显得十分重要。通过对网络爬虫的研究和爬虫框架Scrapy的深入探索,结合Redis这种NoSQL数据库搭建分布式爬虫框架,并结合Django框架搭建搜索引擎网站,将从知乎,拉钩,伯乐等网站抓取的有效信息存入ElasticSearch搜索引擎中,供用户搜索获取。研究结果表明分布式网络爬虫比单机网络爬虫效率更高,内容也更丰富准确。 展开更多
关键词 网络爬虫 Scrapy 分布式 scrapy-redis DJANGO Elasticsearch
下载PDF
基于Scrapy框架的分布式网络爬虫实现 被引量:3
8
作者 陶兴海 《电子技术与软件工程》 2017年第11期23-23,共1页
根据互联网实际情况,提出分布式爬虫模型,基于Scrapy框架,进行代码实现,且该开发方式可以迅速进行对不同主题的数据爬取的移植,满足不同专业方向的基于互联网大数据分析需要。
关键词 网络爬虫 scrapy-redis 分布式
下载PDF
一种分布式爬虫系统的设计与应用
9
作者 周逸 李新 陈远平 《科研信息化技术与应用》 2019年第1期79-87,共9页
文献计量学是一种把握学科发展态势的定量分析方法。传统基于文献计量学的研究步骤需手动操作且流程繁琐,针对这一问题,设计并实现了一种基于scrapy-redis分布式爬虫的学科发展态势分析系统。该系统包含了1.负责爬取并解析web of scienc... 文献计量学是一种把握学科发展态势的定量分析方法。传统基于文献计量学的研究步骤需手动操作且流程繁琐,针对这一问题,设计并实现了一种基于scrapy-redis分布式爬虫的学科发展态势分析系统。该系统包含了1.负责爬取并解析web of science文献数据的数据预处理层。解决了由于网速不稳定造成的爬虫丢失网页问题,保障数据完整性。设计了一种动态计算参考文献所属学科分布情况的算法2.基于Django搭建的结果展示层,通过web服务向用户展示学科态势分析结果。用户只需输入初始待爬取页面的URL即可通过web服务获得学科态势分析结果。该系统为文献计量学提供了一种更便捷、更快速、扩展性高的分析手段。 展开更多
关键词 scrapy-redis 分布式爬虫 文献计量学 学科发展态势 DJANGO
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部