期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种主题知识自增长的聚焦网络爬虫 被引量:9
1
作者 李东晖 廖晓兰 +2 位作者 范辅桥 黄九鸣 陈雪刚 《计算机应用与软件》 CSCD 北大核心 2014年第5期29-33,88,共6页
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中... 聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。 展开更多
关键词 聚焦网络爬虫 无监督学习 知识扩展 主题相关度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部