-
题名基于文档相关度计算的网页预测模型
被引量:3
- 1
-
-
作者
朱鲲鹏
魏芳
-
机构
上海贝尔股份有限公司
复旦大学计算机科学技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第2期109-112,189,共5页
-
基金
上海市博士后项目资助(10R21421900)
-
文摘
基于网络日志挖掘的网页预测系统可以有效地分析用户未来的网络访问请求,从而达到智能推荐、改善网络性能等目的。针对目前的预测模型缺乏有效的语义处理的问题,将词语语义信息和统计语言模型相结合,提出一种基于文档相关度计算的网页统计预测模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为预测的依据。实验表明,该技术使预测模型的性能获得了较大的提高。
-
关键词
网页预测
统计语言模型
日志挖掘
文档相关度
-
Keywords
Web page prediction Statistical language model Web log mining Document relevancy
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名Nutch中网页更新预测研究与优化
被引量:1
- 2
-
-
作者
胡伟
吴海涛
-
机构
上海师范大学信息与机电工程学院
-
出处
《上海师范大学学报(自然科学版)》
2016年第4期448-457,共10页
-
文摘
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.
-
关键词
NUTCH
网页更新预测
基于密度聚类算法
泊松过程
分布式编程
-
Keywords
Nutch
web page updated prediction
DBSCAN
poisson process
map Reduce
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名网页更新预测算法研究现状
被引量:2
- 3
-
-
作者
杨眉
-
机构
四川大学计算机学院
-
出处
《软件导刊》
2013年第4期57-59,共3页
-
文摘
互联网的一个重要性质是网络中的网页信息随时发生着更新。在Web信息迅速增长的今天,网页更新的预测和确定成为了一个备受关注的课题。介绍了作为网页更新预测模型的泊松模型,并根据该模型的各种缺陷分析对网页更新预测算法的现状进行了阐述,同时对未来的研究方向进行了展望。
-
关键词
POISSON过程
网页更新预测算法
增量采集
-
Keywords
The Change of Web Page
Poisson Model
Web Changing Prediction
Incremental Crawler
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于聚类克隆技术的Markov预测算法的改进
- 4
-
-
作者
郑舒琳
白清源
-
机构
福州大学数学与计算机科学学院
-
出处
《郑州轻工业学院学报(自然科学版)》
CAS
2011年第4期72-75,共4页
-
文摘
为解决传统一阶Markov模型算法的预测准确率较低问题,改进算法在动态的基于聚类克隆的Markov模型算法的基础上,通过限制克隆条件实现对状态的过滤,减少了需克隆的状态数,减小了计算量,从而提高了运算速度.实验表明,这种策略能有效地提高Markov模型在网页预测中的效率.
-
关键词
MARKOV模型
聚类克隆技术
网页预测
-
Keywords
Markov model
clustering clone technology
Web prediction
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名搜索引擎增量式搜集的实现与评测
被引量:3
- 5
-
-
作者
雷凯
王东海
-
机构
北京大学深圳研究生院互联网研发中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第13期78-80,106,共4页
-
基金
深圳市科技计划基金资助项目
北京大学深圳研究生院青年教师基金资助项目
-
文摘
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。
-
关键词
增量式搜集
网页变化预测
搜索引擎
-
Keywords
incremental Crawler
Web evolution prediction
search engine
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名大学图书馆学科服务专项搜索引擎关键技术研究
- 6
-
-
作者
王寒冰
-
机构
东北农业大学
-
出处
《图书馆学刊》
2017年第5期119-126,共8页
-
文摘
以承担"黑龙江省原料乳生产生物性风险来源分析与防控"研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎。描述了专项信息资源搜索引擎中的关键技术:即面向增量爬虫的网页更新频率预测技术,该技术使用泊松分布来预测特定网页更新变化情况,并通过实验验证了该技术的优越性能,为后续研究提供了基础。
-
关键词
学科服务
搜索引擎
增量爬虫
网页更新频率预测技术
-
分类号
G252
[文化科学—图书馆学]
-
-
题名基于模式探测的Web预取方法
- 7
-
-
作者
魏嘉伯
-
机构
铁岭市第一高级中学
-
出处
《电脑编程技巧与维护》
2016年第23期30-33,共4页
-
文摘
随着移动互联网及OTT等应用的迅猛发展,手机用户每月需要支付较多的网络资费,为了帮助用户节省手机流量,很多应用软件提供了无图模式等功能,但是仍不能帮助用户节省较多的流量费用。通过分析用户浏览网页的习惯和手机网络连接状态,从而对用户浏览网页进行预测,在Wi Fi网络环境下对不同时间段的预测结果进行预取,提出了一个新的预测算法——时间序列矩阵算法。通过对用户信息的预处理,从而建立时间序列矩阵,每个用户的时间序列矩阵都不相关的。实验验证,提出的方法能够准确地预测用户的浏览需求,从而帮助用户节省手机流量。
-
关键词
预测网页
网络状态
时间序列矩阵
预取算法
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-