-
题名网页变化与增量搜集技术
被引量:22
- 1
-
-
作者
孟涛
王继民
闫宏飞
-
机构
北京大学计算机科学技术系网络与分布式系统实验室
-
出处
《软件学报》
EI
CSCD
北大核心
2006年第5期1051-1067,共17页
-
基金
国家自然科学基金
国家教育部博士点基金~~
-
文摘
互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.
-
关键词
网页变化
增量搜集
调度策略
研究进展
-
Keywords
Web evolution
incremental crawling
scheduling policy
research development
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于版块的论坛增量搜集策略
被引量:2
- 2
-
-
作者
杜言琦
马军
-
机构
山东大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期62-68,共7页
-
基金
国家自然科学基金资助项目(60970047)
山东省科技攻关资助项目(2007GG10001002
+1 种基金
2008GG10001026)
山东省自然科学基金资助项目(Y2008G19)
-
文摘
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。
-
关键词
计算机应用
中文信息处理
增量搜集
论坛爬虫
延迟
-
Keywords
computer application
Chinese information processing
incremental crawl
forum crawler
delay
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名搜索引擎增量式搜集的实现与评测
被引量:3
- 3
-
-
作者
雷凯
王东海
-
机构
北京大学深圳研究生院互联网研发中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第13期78-80,106,共4页
-
基金
深圳市科技计划基金资助项目
北京大学深圳研究生院青年教师基金资助项目
-
文摘
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。
-
关键词
增量式搜集
网页变化预测
搜索引擎
-
Keywords
incremental Crawler
Web evolution prediction
search engine
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-