期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一个预测网页变化的增量式更新模型 被引量:2
1
作者 王大伟 张岩 +1 位作者 曾皓 潘延辉 《微计算机信息》 2009年第6期153-154,130,共3页
为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化... 为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化情况的模型,并用实验证明了这种模型的有效性。 展开更多
关键词 单一index型网页 网页变化 POISSON过程 Markov排队过程
下载PDF
基于Heritrix的增量式爬虫设计与实现 被引量:6
2
作者 孟庆浩 王晶 沈奇威 《电信技术》 2014年第9期97-101,101+99-100,共5页
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix... Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。 展开更多
关键词 HERITRIX 网络爬虫 增量抓取 index网页
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部