期刊文献+

基于T-Graph算法的链接和内容相结合的聚焦爬虫模型

下载PDF
导出
摘要 聚焦网络爬虫的两大重要目标就是寻找主题相关的网页,并优先下载主题相关度高的网页。首先,读取并分析网页的有效HTML元素,并根据高准确率来预测和抽取每个未被访问的网页的主题内容。然后,根据T-Graph来计算URLs的主题相关度,并按照相关度大小进行排序。本文提出的基于T-Graph的算法综合了多方面的元素,通过实验得到了较高的查准率和查全率,因此,该算法具有重要的意义。
作者 周萍
出处 《电子世界》 2016年第6期190-191,共2页 Electronics World
  • 相关文献

参考文献1

二级参考文献14

共引文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部