-
题名基于链接路径预测的聚焦Web实体搜索
被引量:1
- 1
-
-
作者
黄健斌
孙鹤立
-
机构
西安电子科技大学国家示范性软件学院
西安交通大学计算机科学与技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第12期2059-2066,共8页
-
基金
陕西省自然科学基础研究计划基金项目(SJ08-ZT14)
-
文摘
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值。在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.
-
关键词
实体搜索
聚焦爬行
链接路径预测
条件随机场
增强学习
-
Keywords
entity search
focused Web crawling
linked-path prediction
conditional random field
reinforcement learning
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-