-
题名使用联合链接相似度评估爬取Web资源
被引量:6
- 1
-
-
作者
张乃洲
李石君
余伟
张卓
-
机构
武汉大学软件工程国家重点实验室
武汉大学计算机学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2010年第12期2267-2280,共14页
-
基金
国家自然科学基金(60970018)资助~~
-
文摘
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.
-
关键词
聚焦爬行
主题相似度
链接评估
Web链接图
Q学习
-
Keywords
focused crawling
topic similarity
link evaluation
Web link graph
Q learning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-