期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
专题型网页搜集系统的设计与实现
1
作者 胡卓颖 徐可 +2 位作者 万中英 陆玉昌 丁树良 《计算机与现代化》 2004年第10期1-5,14,共6页
近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达... 近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。 展开更多
关键词 URL排序 集中式搜集器 多层分类 主题过滤
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部