-
题名Nutch中网页更新预测研究与优化
被引量:1
- 1
-
-
作者
胡伟
吴海涛
-
机构
上海师范大学信息与机电工程学院
-
出处
《上海师范大学学报(自然科学版)》
2016年第4期448-457,共10页
-
文摘
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.
-
关键词
NUTCH
网页更新预测
基于密度聚类算法
泊松过程
分布式编程
-
Keywords
Nutch
web page updated prediction
DBSCAN
poisson process
map Reduce
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名网页更新预测算法研究现状
被引量:2
- 2
-
-
作者
杨眉
-
机构
四川大学计算机学院
-
出处
《软件导刊》
2013年第4期57-59,共3页
-
文摘
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。
-
关键词
POISSON过程
网页更新预测算法
增量采集
-
Keywords
The Change of Web Page
Poisson Model
Web Changing Prediction
Incremental Crawler
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名大学图书馆学科服务专项搜索引擎关键技术研究
- 3
-
-
作者
王寒冰
-
机构
东北农业大学
-
出处
《图书馆学刊》
2017年第5期119-126,共8页
-
文摘
以承担"黑龙江省原料乳生产生物性风险来源分析与防控"研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎。描述了专项信息资源搜索引擎中的关键技术:即面向增量爬虫的网页更新频率预测技术,该技术使用泊松分布来预测特定网页更新变化情况,并通过实验验证了该技术的优越性能,为后续研究提供了基础。
-
关键词
学科服务
搜索引擎
增量爬虫
网页更新频率预测技术
-
分类号
G252
[文化科学—图书馆学]
-