期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种主题知识自增长的聚焦网络爬虫
被引量:
9
1
作者
李东晖
廖晓兰
+2 位作者
范辅桥
黄九鸣
陈雪刚
《计算机应用与软件》
CSCD
北大核心
2014年第5期29-33,88,共6页
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中...
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。
展开更多
关键词
聚焦网络爬虫
无监督学习
知识扩展
主题相关度
下载PDF
职称材料
题名
一种主题知识自增长的聚焦网络爬虫
被引量:
9
1
作者
李东晖
廖晓兰
范辅桥
黄九鸣
陈雪刚
机构
湖南农业大学信息科学与技术学院
湖南农业大学植物保护学院
厦门通融软件科技有限公司
解放军
湘南学院计算机科学系
出处
《计算机应用与软件》
CSCD
北大核心
2014年第5期29-33,88,共6页
基金
湖南省教育厅外来生物灾害预警机制研究(62021612008)
湖南省科技计划资助项目(2013FJ3032)
湖南省哲学社会科学基金项目(13YBA302)
文摘
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。
关键词
聚焦网络爬虫
无监督学习
知识扩展
主题相关度
Keywords
Focused network crawler Unsupervised learning Knowledge extension Topic correlation degree
分类号
TP316 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种主题知识自增长的聚焦网络爬虫
李东晖
廖晓兰
范辅桥
黄九鸣
陈雪刚
《计算机应用与软件》
CSCD
北大核心
2014
9
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部