-
题名基于URL模式集的主题爬虫
被引量:18
- 1
-
-
作者
胡萍瑞
李石君
-
机构
武汉大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第3期694-699,726,共7页
-
基金
国家自然科学基金资助项目(61272109
61502350)
-
文摘
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。
-
关键词
主题爬虫
url模式
url前缀树
模式关系图
url模式重要性
-
Keywords
focused crawler
url pattern
url prefix tree
pattern graph
importance of url pattern
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-