-
题名一个预测网页变化的增量式更新模型
被引量:2
- 1
-
-
作者
王大伟
张岩
曾皓
潘延辉
-
机构
乌鲁木齐市中国科学院新疆理化技术研究所
-
出处
《微计算机信息》
2009年第6期153-154,130,共3页
-
文摘
为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化情况的模型,并用实验证明了这种模型的有效性。
-
关键词
单一index型网页
网页变化
POISSON过程
Markov排队过程
-
Keywords
Single index web page
the change of web page
Poisson model
Markov queuing process
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Heritrix的增量式爬虫设计与实现
被引量:6
- 2
-
-
作者
孟庆浩
王晶
沈奇威
-
机构
北京邮电大学网络与交换技术国家重点实验室
东信北邮信息技术有限公司
-
出处
《电信技术》
2014年第9期97-101,101+99-100,共5页
-
基金
国家973计划项目(No.2013CB329102)
国家自然科学基金资助项目(No.61372120
+5 种基金
61271019
61101119
61121001)
长江学者和创新团队发展计划资助(No.IRT1049)
教育部科学技术研究重点(重大)项目资助(No.MCM20130310)
北京高等学校青年英才计划项目(No.YETP0473)
-
文摘
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。
-
关键词
HERITRIX
网络爬虫
增量抓取
index型网页
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-