-
题名增量更新并行W eb爬虫系统
被引量:8
- 1
-
-
作者
徐文杰
陈庆奎
-
机构
上海理工大学计算机与电气工程学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第4期1117-1119,1127,共4页
-
基金
国家自然科学基金资助项目(60573108)
上海教委发展基金资助项目(06QZ00207ZZ92)
+1 种基金
上海教委科研创新重点项目(08ZZ76)
上海市重点学科建设项目(s30501)
-
文摘
介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。
-
关键词
Web数据抓取
并行爬虫
增量更新策略
余弦向量法
-
Keywords
Web data crawling
parallel crawler
increment update strategy
cosine vector
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Hadoop的分布式并行增量爬虫技术研究
被引量:4
- 2
-
-
作者
刘芳云
张志勇
李玉祥
-
机构
河南科技大学信息工程学院
-
出处
《计算机测量与控制》
2018年第10期269-275,308,共8页
-
基金
国家自然科学基金(61772174
61370220)
+1 种基金
河南省科技创新杰出人才计划项目(174200510011)
河南省高校科技创新团队支持计划项目(15IRTSTHN010)
-
文摘
面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略;实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。
-
关键词
HADOOP集群
分布式爬虫
并行爬虫
增量爬虫
刷新策略
-
Keywords
Hadoop cluster
distributed crawler
parallel crawler
incremental crawler
refresh strategy
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于多agent强化学习的语义Web爬虫设计
- 3
-
-
作者
谢枫平
-
机构
闽西职业技术学院计算机系
-
出处
《漳州师范学院学报(自然科学版)》
2010年第4期63-68,共6页
-
文摘
Web的海量信息导致了搜索引擎的出现,同时,Web数据的迅速膨胀以及频繁的更新对搜索引擎提出了更高的要求,而并行搜索引擎可以提高抓取速度,并改善更新效率.语义Web是对未来Web的一个设想,语义Web的数据同传统Web一样面临着数据的膨胀更新问题.于是研究语义Web并行搜索引擎成了一个重要的研究方向.介绍了如何设计一个基本的面向语义Web的并行爬虫系统.该系统由一个中央控制器和若干个子爬虫组成.中央控制器负责为爬虫分配抓取任务,并汇总抓取的数据;子爬虫负责抓取并抽取URLs的工作.而对于每个子爬虫除了处理RDF文档之外,还试图从传统HTML网页中通过强化学习的方法发现更多RDF文档链接.
-
关键词
语义WEB
并行爬虫
强化学习
-
Keywords
Semantic Web
Parallel Web Crawler
Reinforcement Learning
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于采样的在线大图数据收集和更新
- 4
-
-
作者
尹子都
岳昆
张彬彬
李劲
-
机构
云南大学信息学院
云南大学软件学院
-
出处
《软件学报》
EI
CSCD
北大核心
2020年第11期3540-3558,共19页
-
基金
国家自然科学基金(U1802271,62002311)
云南省基础研究计划杰出青年项目(2019FJ011)
+1 种基金
云南省青年拔尖人才培养支持计划(C6193032)
云南大学东陆学者培育计划。
-
文摘
互联网中,以网页、社交媒体和知识库等为载体呈现的大量非结构化数据可表示为在线大图.在线大图数据的获取包括数据收集和更新,是大数据分析与知识工程的重要基础,但面临着数据量大、分布广、异构和变化快速等挑战.基于采样技术,提出并行、自适应的在线大图数据收集和更新方法.首先,将分支限界方法与半蒙特卡罗采样技术相结合,提出能够自适应地收集在线大图数据的HD-QMC算法;然后,为了使收集的数据能反映实际中在线大图的动态变化,进一步基于信息熵及泊松过程,提出高效更新在线大图数据的EPP算法.从理论上分析了该算法的有效性,并将获取的各类在线大图数据统一表示为RDF三元组的形式,为在线大图数据分析及相关研究提供方便易用的数据基础.基于Spark实现了在线大图数据的收集和更新算法,人工生成数据和真实数据上的实验结果展示了该方法的有效性和高效性.
-
关键词
在线大图
数据收集
数据更新
并行爬虫
SPARK
-
Keywords
online big graph
data collection
data updating
parallel crawler
Spark
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-