期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于内容与链接分析的主题爬虫研究与设计 被引量:2
1
作者 舒奔 尹珂 《计算机与现代化》 2014年第4期77-80,共4页
现存主题爬虫算法在抓取主题网页方面,其准确性不是很高。本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法。首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度... 现存主题爬虫算法在抓取主题网页方面,其准确性不是很高。本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法。首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度值的大小也决定了待爬链接队列中URL的优先权,此模型考虑了主题网页的准确率与覆盖率之间的平衡。新设计的主题爬虫算法在抓取主题网页方面,其准确性有一定程度的提高。 展开更多
关键词 主题爬虫 主题相关度 主题网页
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部