-
题名一种基于改进BFS算法的主题搜索技术研究
被引量:1
- 1
-
-
作者
乔建忠
-
机构
解放军艺术学院信息管理中心
-
出处
《现代图书情报技术》
CSSCI
北大核心
2013年第7期28-35,共8页
-
文摘
通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表性的特征因子构造链接优先级计算公式,以达到全面揭示和预测链接主题的目的。通过与其他三类主题搜索算法的小规模实验比较,证明改进算法在收割率和平均提交链接数上效果较好。
-
关键词
主题搜索
搜索算法
最好优先搜索算法
主题爬行器
特征因子
-
Keywords
focused crawling
search algorithm
Best - First search algorithm
focused crawler
characteristic factor
-
分类号
G254
[文化科学—图书馆学]
-
-
题名面向主题搜索的特征因子研究综述
- 2
-
-
作者
乔建忠
-
机构
解放军艺术学院信息管理中心
-
出处
《图书情报工作》
CSSCI
北大核心
2012年第17期143-147,121,共6页
-
文摘
通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特征、统计特征和时效性特征,并描述各特征项对主题相关性的作用、综合运用各类特征的通用化链接优先级计算公式以及特征选取原则。
-
关键词
主题爬行技术
主题爬行器
特征因子
搜索算法
-
Keywords
focused cnrwling tocused crawler characteristic factor search algorithm
-
分类号
G250.73
[文化科学—图书馆学]
-