-
题名基于分层结构保留的增量网络爬虫算法
被引量:3
- 1
-
-
作者
胡廉民
张泽斌
徐威迪
黄翰
李英
-
机构
乐山师范学院物理与电子工程学院
华南理工大学计算机科学与工程学院广州
Oracle甲骨文研究开发中心(深圳)有限公司
华南理工大学软件学院
乐山师范学院数学与信息科学学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第8期2381-2385,共5页
-
基金
国家自然科学基金资助项目(61003066,61170193)
广东省自然科学基金资助项目(S2012010010613)
+1 种基金
国家教育部博士点基金资助项目(20090172120035)
中央高校基本科研业务费重点项目(2012ZM0083)
-
文摘
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下,实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。
-
关键词
网络爬虫
url过滤器
层次结构保存
频率模型
-
Keywords
Web crawler
url filter
hierarchical structure preservation
frequent mode
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-