-
题名引入主题链接块因子的候选链接搜索策略研究
被引量:1
- 1
-
-
作者
周雪
刘乃文
-
机构
山东师范大学信息科学与工程学院
山东省分布式计算机软件新技术重点实验室
-
出处
《计算机与数字工程》
2018年第5期874-878,共5页
-
文摘
网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键。针对链接的锚文本较短小,不能很好地表明链接指向页面与主题的相关性的问题,论文在Shark-search算法的基础上引入相关链接块权重,利用块中子链接的锚文本进行块的权重计算,通过对比实验验证了改进算法可以更好地区分处于同一页面中的链接的相关度评分,提高爬虫的查准率,同时缓和"主题漂移"的问题。
-
关键词
网页分块
Shark-search算法
链接结构
主题链接块
-
Keywords
page-block
Shark-search algorithm
link-structure
topic-relative link block
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-