-
题名专题型网页搜集系统的设计与实现
- 1
-
-
作者
胡卓颖
徐可
万中英
陆玉昌
丁树良
-
机构
清华大学计算机科学与技术系
江西师范大学计算机科学与技术学院
-
出处
《计算机与现代化》
2004年第10期1-5,14,共6页
-
基金
国家自然科学基金资助项目(79990580)
国家973资助项目(G1998030414)
-
文摘
近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。
-
关键词
URL排序
集中式搜集器
多层分类
主题过滤
-
Keywords
URL ordering
focused crawler
multi-layer classification
topic distillation
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-