期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
针对微博的免登录分布式网络爬虫的研究 被引量:2
1
作者 王林 刘星辰 《计算机测量与控制》 2019年第7期128-131,136,共5页
微博作为优质的数据源,其中的数据非常适合做舆情分析等;新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率;针对这些问题,设计了一个免登录的微博网络爬虫;通过实验表明,该爬虫可以更快的对... 微博作为优质的数据源,其中的数据非常适合做舆情分析等;新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率;针对这些问题,设计了一个免登录的微博网络爬虫;通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集;随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据;通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。 展开更多
关键词 免登录网络爬虫 分布式网络爬虫 HADOOP MAPREDUCE
下载PDF
动态网页解析下的分布式网络爬虫系统设计 被引量:1
2
作者 陈春晖 《无线互联科技》 2022年第20期81-83,共3页
由于Web前端技术和反爬虫技术的发展,系统的复杂性也在逐渐增大,爬虫在爬取数据时获取动态网页数据、应对反网络爬虫以及集群稳定性还存在问题,这些问题对爬虫系统获取动态网页数据的效率存在着很大影响。文章基于分布式网络的爬虫器,... 由于Web前端技术和反爬虫技术的发展,系统的复杂性也在逐渐增大,爬虫在爬取数据时获取动态网页数据、应对反网络爬虫以及集群稳定性还存在问题,这些问题对爬虫系统获取动态网页数据的效率存在着很大影响。文章基于分布式网络的爬虫器,对上述问题进行了深入的研究和分析。首先,对所设计的分布式爬虫系统进行了需求分析;其次,结合系统需求,给出了系统整体结构和各模块的设计;最后,重点分析了系统中的关键技术,即爬虫的健壮性分析、网页动态加载分析。 展开更多
关键词 分布式网络爬虫 动态网页资料获取 网络爬虫
下载PDF
基于分布式网络爬虫的Web空间数据获取方法研究 被引量:3
3
作者 冯玲 黄亮 +1 位作者 曾李阳 朱齐华 《贵州大学学报(自然科学版)》 2019年第1期33-36,共4页
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统... 本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。 展开更多
关键词 Web空间数据 分布式网络爬虫 原型系统
下载PDF
基于Hadoop的分布式网络爬虫技术的设计与实现 被引量:3
4
作者 岳雨俭 《电脑知识与技术(过刊)》 2015年第3X期36-38,共3页
随着互联网行业和信息技术的发展,Google、IBM和Apache等大型公司纷纷投入去发展云计算,其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术,以完成大规模数据... 随着互联网行业和信息技术的发展,Google、IBM和Apache等大型公司纷纷投入去发展云计算,其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术,以完成大规模数据的采集,其中采用Map/Reduce分布式计算框架和分布式文件系统,来解决单机爬虫效率低、可扩展性差等问题,提高网页数据爬取速度并扩大爬取的规模。 展开更多
关键词 云计算 分布式网络爬虫 HADOOP
下载PDF
海量音频分布式网络爬虫系统的研究与实现
5
作者 谢泽辉 李建忠 《韩山师范学院学报》 2015年第6期28-34,共7页
随着互联网信息量的日益剧增,基于分布式的网络爬虫系统已经成为未来的一个重要发展趋势.文章利用提供的初始URL种子,通过分布式网络爬虫系统抓取海量音频,同时也对分布式网络爬虫中的媒体音频真实地址解析,URL去重、分布式任务调度、sn... 随着互联网信息量的日益剧增,基于分布式的网络爬虫系统已经成为未来的一个重要发展趋势.文章利用提供的初始URL种子,通过分布式网络爬虫系统抓取海量音频,同时也对分布式网络爬虫中的媒体音频真实地址解析,URL去重、分布式任务调度、sniffer嗅探等技术进行了研究和探索.实验结果表明,基于分布式的海量音频爬虫系统能以较少的时间代价准确地抓取海量符合需求的音频. 展开更多
关键词 主从分布式网络爬虫 海量音频 Boom Filter 二次哈希 sniffer网络嗅探
下载PDF
基于Scrapy的分布式网络新闻抓取系统设计
6
作者 翟峰 《现代科学仪器》 2019年第1期25-27,共3页
针对传统单机网络爬虫无法从互联网上实时抓取有效信息的问题,文章利用信息采集速率较快且规模较大的分布式网络爬虫设计了基于Scrapy的分布式网络新闻爬虫抓取系统。该系统利用Scrapy框架结合Redis技术对传统的网络爬虫框架进行改进,... 针对传统单机网络爬虫无法从互联网上实时抓取有效信息的问题,文章利用信息采集速率较快且规模较大的分布式网络爬虫设计了基于Scrapy的分布式网络新闻爬虫抓取系统。该系统利用Scrapy框架结合Redis技术对传统的网络爬虫框架进行改进,使改进后的爬虫抓取的数据信息可存储在MongoDB数据库内,以便对数据库直接新闻数据信息的有效处理分析。经过实际应用测试,证明基于Scrapy框架的网络新闻抓取系统相较于传统单机系统具有更高的效率。 展开更多
关键词 Scrapy框架 分布式网络爬虫 网络新闻抓取系统
下载PDF
微博数据爬虫的检测方法研究
7
作者 黄志高 《现代计算机》 2023年第16期64-68,共5页
针对常见的分布式网络爬虫提出了一种对策,研究了爬虫检测的方法,并分析了分布式爬虫如何绕过这些方法。通过关注网络流量遵循功率分配的属性来检测分布式爬虫。当我们按请求数量对网页进行排序时,大多数请求都集中在最常请求的网页上... 针对常见的分布式网络爬虫提出了一种对策,研究了爬虫检测的方法,并分析了分布式爬虫如何绕过这些方法。通过关注网络流量遵循功率分配的属性来检测分布式爬虫。当我们按请求数量对网页进行排序时,大多数请求都集中在最常请求的网页上。此外,还会有一些普通用户通常不会要求的网页。但是爬虫会请求这些网页,因为它们的算法旨在通过解析网页来迭代请求,以收集爬虫遇到的每个项目。因此可以假设,如果某些IP地址频繁用于请求位于功率分配图长尾区域的网页,则这些IP地址可以归类为爬虫节点。网络流量数据的实验结果表明,该方法可以有效地识别出0.02%误报的分布式爬虫。 展开更多
关键词 分布式网络爬虫 长尾域值 爬虫检测
下载PDF
大数据环境下分布式数据抓取策略的研究与应用 被引量:2
8
作者 段玉风 《网络安全技术与应用》 2019年第12期75-76,共2页
随着网络技术与移动通信技术的飞速发展,互联网已经进入了大数据时代,传统的数据抓取技术已经很难适应当前海量数据的应用需求,为了能够有效改善这一现状,本文提出了基于Hadoop的分布式网络爬虫改进策略,以满足大数据环境下用户对互联... 随着网络技术与移动通信技术的飞速发展,互联网已经进入了大数据时代,传统的数据抓取技术已经很难适应当前海量数据的应用需求,为了能够有效改善这一现状,本文提出了基于Hadoop的分布式网络爬虫改进策略,以满足大数据环境下用户对互联网信息的应用需求. 展开更多
关键词 大数据 HADOOP 分布式网络爬虫
原文传递
基于iOS平台的搜房系统设计与实现
9
作者 杨瑞琪 张月霞 《北京信息科技大学学报(自然科学版)》 2017年第2期55-59,共5页
针对现有移动终端搜房类软件搜索结果不够全面实时有效,搜索模式、结果展现方式不便使用等问题,设计了一款基于iOS平台的搜房系统软件。该软件采用分布式网络爬虫技术,保证了数据的实时性与有效性,利用基于地图的查找方式可以快速查找... 针对现有移动终端搜房类软件搜索结果不够全面实时有效,搜索模式、结果展现方式不便使用等问题,设计了一款基于iOS平台的搜房系统软件。该软件采用分布式网络爬虫技术,保证了数据的实时性与有效性,利用基于地图的查找方式可以快速查找出用户所需位置的房源信息,实现海量信息的及时搜索。功能测试结果表明,该软件系统具有良好的房源搜索效果,有较大的实用价值。 展开更多
关键词 iOS平台 搜房系统 分布式网络爬虫
下载PDF
基于大数据分析的数码产品价格预测网站设计
10
作者 农惜玲 孟军 +2 位作者 伍宁芳 黄小益 甘宇健 《电脑知识与技术(过刊)》 2017年第6X期269-270,276,共3页
在当前大数据火热的背景下,研究者都在思考如何应用大数据解决实际问题。文章在理解大数据思维下,设计了以数码产品价格预测、产品基本搜索功能和产品详情模块为主要功能的数码产品价格预测网站,其中重点介绍了如何实现数码产品价格预... 在当前大数据火热的背景下,研究者都在思考如何应用大数据解决实际问题。文章在理解大数据思维下,设计了以数码产品价格预测、产品基本搜索功能和产品详情模块为主要功能的数码产品价格预测网站,其中重点介绍了如何实现数码产品价格预测功能。该功能的实现主要是利用分布式网络爬虫技术获取各大知名网站的数码产品价格,并利用模型对数码产品的价格走势进行预测。 展开更多
关键词 价格预测 分布式网络爬虫 数码产品网站 大数据 数学建模
下载PDF
基于物联网的财务数据智能管理平台研究
11
作者 樊劭程 《市场调查信息(综合版)》 2020年第11期170-171,共2页
由于传统财务数据智能管理平台鲁棒性能较差,为此提出基于物联网的财务数据智能管理平台研究。利用物联网技术搭建了平台整体架构,平台正常采用三层体系结构,包括显示层、应用层、数据层,实现物与物的连接;然后利用分布式网络爬虫获取... 由于传统财务数据智能管理平台鲁棒性能较差,为此提出基于物联网的财务数据智能管理平台研究。利用物联网技术搭建了平台整体架构,平台正常采用三层体系结构,包括显示层、应用层、数据层,实现物与物的连接;然后利用分布式网络爬虫获取财务数据,并依据财务数据处理标准对财务数据进行分类、整合、共享处理;划分平台应用层的用户权限和用户软件口令,实现财务数据智能协同管理,以此完成基于物联网的财务数据智能管理平台设计。经实验证明,此次设计的平台鲁棒性能优于传统平台。 展开更多
关键词 物联网 财务数据 智能管理平台 分布式网络爬虫 用户权限
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部