-
题名针对微博的免登录分布式网络爬虫的研究
被引量:2
- 1
-
-
作者
王林
刘星辰
-
机构
西安理工大学自动化与信息工程学院
-
出处
《计算机测量与控制》
2019年第7期128-131,136,共5页
-
基金
陕西省科技计划重点项目资助(2017ZDCXL-GY-05-03)
-
文摘
微博作为优质的数据源,其中的数据非常适合做舆情分析等;新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率;针对这些问题,设计了一个免登录的微博网络爬虫;通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集;随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据;通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。
-
关键词
免登录网络爬虫
分布式网络爬虫
HADOOP
MAPREDUCE
-
Keywords
crawler without login
distributed web crawler
Hadoop
MapReduce
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名动态网页解析下的分布式网络爬虫系统设计
被引量:1
- 2
-
-
作者
陈春晖
-
机构
福建农业职业技术学院
-
出处
《无线互联科技》
2022年第20期81-83,共3页
-
文摘
由于Web前端技术和反爬虫技术的发展,系统的复杂性也在逐渐增大,爬虫在爬取数据时获取动态网页数据、应对反网络爬虫以及集群稳定性还存在问题,这些问题对爬虫系统获取动态网页数据的效率存在着很大影响。文章基于分布式网络的爬虫器,对上述问题进行了深入的研究和分析。首先,对所设计的分布式爬虫系统进行了需求分析;其次,结合系统需求,给出了系统整体结构和各模块的设计;最后,重点分析了系统中的关键技术,即爬虫的健壮性分析、网页动态加载分析。
-
关键词
分布式网络爬虫
动态网页资料获取
防网络爬虫
-
Keywords
distributed web crawler
dynamic web page data acquisition
anti web crawler
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分布式网络爬虫的Web空间数据获取方法研究
被引量:3
- 3
-
-
作者
冯玲
黄亮
曾李阳
朱齐华
-
机构
昆明理工大学国土资源工程学院
国家测绘地理信息局四川基础地理信息中心
-
出处
《贵州大学学报(自然科学版)》
2019年第1期33-36,共4页
-
基金
四川省科技支撑项目资助(J2015ZC05)
数字制图与国土信息应用工程国家测绘地理信息局重点实验室开放基金项目资助(DM2014SC04)
-
文摘
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。
-
关键词
Web空间数据
分布式网络爬虫
原型系统
-
Keywords
Web spatial data
distributed web crawler
the prototype system
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-
-
题名基于Hadoop的分布式网络爬虫技术的设计与实现
被引量:3
- 4
-
-
作者
岳雨俭
-
机构
安徽理工大学
-
出处
《电脑知识与技术(过刊)》
2015年第3X期36-38,共3页
-
文摘
随着互联网行业和信息技术的发展,Google、IBM和Apache等大型公司纷纷投入去发展云计算,其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术,以完成大规模数据的采集,其中采用Map/Reduce分布式计算框架和分布式文件系统,来解决单机爬虫效率低、可扩展性差等问题,提高网页数据爬取速度并扩大爬取的规模。
-
关键词
云计算
分布式网络爬虫
HADOOP
-
Keywords
cloud computing
distributed web crawler
Hadoop
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名海量音频分布式网络爬虫系统的研究与实现
- 5
-
-
作者
谢泽辉
李建忠
-
机构
韩山师范学院数学与统计学院
-
出处
《韩山师范学院学报》
2015年第6期28-34,共7页
-
基金
广东省自然科学基金项目(项目编号:2014A030310038)
广东省教育厅科研项目(项目编号:2013KJCX0127)
广东省2013年高等教育教学改革项目
-
文摘
随着互联网信息量的日益剧增,基于分布式的网络爬虫系统已经成为未来的一个重要发展趋势.文章利用提供的初始URL种子,通过分布式网络爬虫系统抓取海量音频,同时也对分布式网络爬虫中的媒体音频真实地址解析,URL去重、分布式任务调度、sniffer嗅探等技术进行了研究和探索.实验结果表明,基于分布式的海量音频爬虫系统能以较少的时间代价准确地抓取海量符合需求的音频.
-
关键词
主从分布式网络爬虫
海量音频
Boom
Filter
二次哈希
sniffer网络嗅探
-
Keywords
distributed web crawler
Massive Audio
Boom Filter
Hash
sniffer
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Scrapy的分布式网络新闻抓取系统设计
- 6
-
-
作者
翟峰
-
机构
西安欧亚学院
-
出处
《现代科学仪器》
2019年第1期25-27,共3页
-
文摘
针对传统单机网络爬虫无法从互联网上实时抓取有效信息的问题,文章利用信息采集速率较快且规模较大的分布式网络爬虫设计了基于Scrapy的分布式网络新闻爬虫抓取系统。该系统利用Scrapy框架结合Redis技术对传统的网络爬虫框架进行改进,使改进后的爬虫抓取的数据信息可存储在MongoDB数据库内,以便对数据库直接新闻数据信息的有效处理分析。经过实际应用测试,证明基于Scrapy框架的网络新闻抓取系统相较于传统单机系统具有更高的效率。
-
关键词
Scrapy框架
分布式网络爬虫
网络新闻抓取系统
-
Keywords
Scrapy framework
distributed network crawler
network news capture system
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名微博数据爬虫的检测方法研究
- 7
-
-
作者
黄志高
-
机构
泉州师范学院物理与信息工程学院
-
出处
《现代计算机》
2023年第16期64-68,共5页
-
基金
2018年福建省中青年教师教育科研项目(JT180381)。
-
文摘
针对常见的分布式网络爬虫提出了一种对策,研究了爬虫检测的方法,并分析了分布式爬虫如何绕过这些方法。通过关注网络流量遵循功率分配的属性来检测分布式爬虫。当我们按请求数量对网页进行排序时,大多数请求都集中在最常请求的网页上。此外,还会有一些普通用户通常不会要求的网页。但是爬虫会请求这些网页,因为它们的算法旨在通过解析网页来迭代请求,以收集爬虫遇到的每个项目。因此可以假设,如果某些IP地址频繁用于请求位于功率分配图长尾区域的网页,则这些IP地址可以归类为爬虫节点。网络流量数据的实验结果表明,该方法可以有效地识别出0.02%误报的分布式爬虫。
-
关键词
分布式网络爬虫
长尾域值
爬虫检测
-
Keywords
distributed web crawler
long tail domain value
crawler detection
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据环境下分布式数据抓取策略的研究与应用
被引量:2
- 8
-
-
作者
段玉风
-
机构
运城广播电视大学
-
出处
《网络安全技术与应用》
2019年第12期75-76,共2页
-
文摘
随着网络技术与移动通信技术的飞速发展,互联网已经进入了大数据时代,传统的数据抓取技术已经很难适应当前海量数据的应用需求,为了能够有效改善这一现状,本文提出了基于Hadoop的分布式网络爬虫改进策略,以满足大数据环境下用户对互联网信息的应用需求.
-
关键词
大数据
HADOOP
分布式网络爬虫
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于iOS平台的搜房系统设计与实现
- 9
-
-
作者
杨瑞琪
张月霞
-
机构
北京信息科技大学信息与通信工程学院
-
出处
《北京信息科技大学学报(自然科学版)》
2017年第2期55-59,共5页
-
基金
国家自然科学基金资助项目(51334003
61473039)
+1 种基金
北京市属高等学校高层次人才引进与培养计划项目(CIT&TCD201504058)
高动态导航北京市实验室开放课题(HDN2014004)
-
文摘
针对现有移动终端搜房类软件搜索结果不够全面实时有效,搜索模式、结果展现方式不便使用等问题,设计了一款基于iOS平台的搜房系统软件。该软件采用分布式网络爬虫技术,保证了数据的实时性与有效性,利用基于地图的查找方式可以快速查找出用户所需位置的房源信息,实现海量信息的及时搜索。功能测试结果表明,该软件系统具有良好的房源搜索效果,有较大的实用价值。
-
关键词
iOS平台
搜房系统
分布式网络爬虫
-
Keywords
iOS platform
housing search system
distributed web crawler
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于大数据分析的数码产品价格预测网站设计
- 10
-
-
作者
农惜玲
孟军
伍宁芳
黄小益
甘宇健
-
机构
广西财经学院
-
出处
《电脑知识与技术(过刊)》
2017年第6X期269-270,276,共3页
-
文摘
在当前大数据火热的背景下,研究者都在思考如何应用大数据解决实际问题。文章在理解大数据思维下,设计了以数码产品价格预测、产品基本搜索功能和产品详情模块为主要功能的数码产品价格预测网站,其中重点介绍了如何实现数码产品价格预测功能。该功能的实现主要是利用分布式网络爬虫技术获取各大知名网站的数码产品价格,并利用模型对数码产品的价格走势进行预测。
-
关键词
价格预测
分布式网络爬虫
数码产品网站
大数据
数学建模
-
Keywords
price forecast
distributed web crawler
digital product website
big data
mathematical modeling
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于物联网的财务数据智能管理平台研究
- 11
-
-
作者
樊劭程
-
机构
中国石化集团共享服务有限公司南京分公司
-
出处
《市场调查信息(综合版)》
2020年第11期170-171,共2页
-
文摘
由于传统财务数据智能管理平台鲁棒性能较差,为此提出基于物联网的财务数据智能管理平台研究。利用物联网技术搭建了平台整体架构,平台正常采用三层体系结构,包括显示层、应用层、数据层,实现物与物的连接;然后利用分布式网络爬虫获取财务数据,并依据财务数据处理标准对财务数据进行分类、整合、共享处理;划分平台应用层的用户权限和用户软件口令,实现财务数据智能协同管理,以此完成基于物联网的财务数据智能管理平台设计。经实验证明,此次设计的平台鲁棒性能优于传统平台。
-
关键词
物联网
财务数据
智能管理平台
分布式网络爬虫
用户权限
-
分类号
C
[社会学]
-