期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
引入主题链接块因子的候选链接搜索策略研究 被引量:1
1
作者 周雪 刘乃文 《计算机与数字工程》 2018年第5期874-878,共5页
网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键。针对链接的锚文本较短小,不能很好地表明链接指向页面与主题的相关... 网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键。针对链接的锚文本较短小,不能很好地表明链接指向页面与主题的相关性的问题,论文在Shark-search算法的基础上引入相关链接块权重,利用块中子链接的锚文本进行块的权重计算,通过对比实验验证了改进算法可以更好地区分处于同一页面中的链接的相关度评分,提高爬虫的查准率,同时缓和"主题漂移"的问题。 展开更多
关键词 网页分 Shark-search算法 结构 主题链接块
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部