期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
网页变化与增量搜集技术 被引量:22
1
作者 孟涛 王继民 闫宏飞 《软件学报》 EI CSCD 北大核心 2006年第5期1051-1067,共17页
互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至... 互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义. 展开更多
关键词 网页变化 增量搜集 调度策略 研究进展
下载PDF
网页变化监测相关技术与方法研究
2
作者 高建秀 吴振新 张智雄 《数字图书馆论坛》 2009年第7期7-11,共5页
有效的网页变化监测技术可以极大提高地保存的效率,因此网页变化监测研究对网络资源长期保存显得十分必要。文章总结了现有的网页变化特点研究成果,指出了目前所采用的网页监测变化频率选择策略,分析了网页变化检测的技术和方法,并... 有效的网页变化监测技术可以极大提高地保存的效率,因此网页变化监测研究对网络资源长期保存显得十分必要。文章总结了现有的网页变化特点研究成果,指出了目前所采用的网页监测变化频率选择策略,分析了网页变化检测的技术和方法,并指明其发展面临的困难和挑战。该文为2009年第七期“网络信息资源保存”专题文章之一。 展开更多
关键词 长期保存 网页变化监测 重访频率
下载PDF
一个预测网页变化的增量式更新模型 被引量:2
3
作者 王大伟 张岩 +1 位作者 曾皓 潘延辉 《微计算机信息》 2009年第6期153-154,130,共3页
为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化... 为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化情况的模型,并用实验证明了这种模型的有效性。 展开更多
关键词 单一index型网页 网页变化 POISSON过程 Markov排队过程
下载PDF
搜索引擎增量式搜集的实现与评测 被引量:3
4
作者 雷凯 王东海 《计算机工程》 CAS CSCD 北大核心 2008年第13期78-80,106,共4页
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜... 针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。 展开更多
关键词 增量式搜集 网页变化预测 搜索引擎
下载PDF
基于统计学的Web论坛增量更新策略研究 被引量:1
5
作者 冯凯 陈军 +1 位作者 王鹃 王勇 《计算机应用与软件》 2017年第6期31-36,129,共7页
传统预测网页变化的模型将一种规律应用到所有网页之上,没有考虑各页面之间的区别,针对网络论坛索引页面提出了一种基于统计学规律的增量更新策略模型。通过相关论坛版块的索引页面进行数据的采集,观察并证明其变化大致呈现以日为周期... 传统预测网页变化的模型将一种规律应用到所有网页之上,没有考虑各页面之间的区别,针对网络论坛索引页面提出了一种基于统计学规律的增量更新策略模型。通过相关论坛版块的索引页面进行数据的采集,观察并证明其变化大致呈现以日为周期的规律性变化,一日之内的变化曲线与人们的生活规律相吻合。然后采用最小二乘法多项式曲线拟合对其进行数学建模,得到合适的数学模型,并将其应用在索引页面的增量更新之上,从而可以准确预测索引页面下一次更新的时间间隔。实验结果表明,该模型在10%误差范围内,预测的准确率为93.9%。 展开更多
关键词 增量更新 网页变化 统计学 数学建模
下载PDF
面向用户体验的大型网站网页分类更新策略 被引量:1
6
作者 欧阳柳波 易显 +1 位作者 李学勇 杨柱 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第9期18-21,共4页
针对大型网站的网页特征,综合考虑网页时新性(更新度)、重要性及对Web服务器的友好性等因素,设计了一种面向用户体验的分类网页更新策略(三类别更新策略).根据网页变化的快慢,将网页分成速变、多变及少变3类,然后根据用户行为确定不同... 针对大型网站的网页特征,综合考虑网页时新性(更新度)、重要性及对Web服务器的友好性等因素,设计了一种面向用户体验的分类网页更新策略(三类别更新策略).根据网页变化的快慢,将网页分成速变、多变及少变3类,然后根据用户行为确定不同类别网页的更新速度和更新时间段,从而实现分类网页更新.实例分析表明,这种策略提高了搜索引擎中大型网站网页更新的效率,缓解了Web服务器的压力,并可保证用户对于检索结果的及时性和正确性. 展开更多
关键词 互联网 搜索引擎 网页变化 网页更新 用户体验
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部