摘要
当前在WWW上有众多的近似镜像Web页面 ,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。在分析现有近似镜像方法的基础上 ,提出了一种以自然段为标准进行分段的近似镜像算法 ,该算法在对网页进行特征值计算时按照自然段落进行分块。实验结果表明 ,该算法对于海量页面有着一定的优势。此外 ,所提出的算法不仅可用于消除重复页面 ,还可以作为页面排序算法的一个参考指标。
出处
《情报杂志》
CSSCI
北大核心
2005年第1期21-23,共3页
Journal of Intelligence
基金
国家自然科学基金项目 (编号 :60 3750 38)资助