期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
Nutch中网页更新预测研究与优化 被引量:1
1
作者 胡伟 吴海涛 《上海师范大学学报(自然科学版)》 2016年第4期448-457,共10页
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapRed... Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优. 展开更多
关键词 NUTCH 网页更新预测 基于密度聚类算法 泊松过程 分布式编程
下载PDF
网页更新预测算法研究现状 被引量:2
2
作者 杨眉 《软件导刊》 2013年第4期57-59,共3页
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行... 互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。 展开更多
关键词 POISSON过程 网页更新预测算法 增量采集
下载PDF
大学图书馆学科服务专项搜索引擎关键技术研究
3
作者 王寒冰 《图书馆学刊》 2017年第5期119-126,共8页
以承担"黑龙江省原料乳生产生物性风险来源分析与防控"研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎。描述了专项信息资源搜索引擎中的关键技术... 以承担"黑龙江省原料乳生产生物性风险来源分析与防控"研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎。描述了专项信息资源搜索引擎中的关键技术:即面向增量爬虫的网页更新频率预测技术,该技术使用泊松分布来预测特定网页更新变化情况,并通过实验验证了该技术的优越性能,为后续研究提供了基础。 展开更多
关键词 学科服务 搜索引擎 增量爬虫 网页更新频率预测技术
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部