期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于分层结构保留的增量网络爬虫算法 被引量:3
1
作者 胡廉民 张泽斌 +2 位作者 徐威迪 黄翰 李英 《计算机应用研究》 CSCD 北大核心 2013年第8期2381-2385,共5页
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网... 为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下,实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。 展开更多
关键词 网络爬虫 url过滤器 层次结构保存 频率模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部