期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于HTML标记和长句提取的网页去重算法 被引量:2
1
作者 刘四维 章轶 +1 位作者 夏勇明 钱松荣 《微型电脑应用》 2009年第8期30-32,5,共3页
提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长... 提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。 展开更多
关键词 网页去重 页面去杂 长句 红黑树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部