期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于Heritrix 可配置主题的聚焦爬虫方法
被引量:
1
1
作者
王松
刘洪基
叶晓波
《楚雄师范学院学报》
2020年第6期124-131,共8页
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬...
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬取,按照预先设置的关键字和栏目信息进行分类搜索,把最符合条件和要求的信息爬取下来供选择、判断、分析和利用。这种方法可在一定程度上解决搜索引擎查询信息的需求问题,提升用户体验,提高检索效率。
展开更多
关键词
聚焦爬虫
可配置主题
HERITRIX
下载PDF
职称材料
题名
一种基于Heritrix 可配置主题的聚焦爬虫方法
被引量:
1
1
作者
王松
刘洪基
叶晓波
机构
楚雄师范学院经济与管理学院
楚雄师范学院国有资产与信息化管理处
出处
《楚雄师范学院学报》
2020年第6期124-131,共8页
文摘
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬取,按照预先设置的关键字和栏目信息进行分类搜索,把最符合条件和要求的信息爬取下来供选择、判断、分析和利用。这种方法可在一定程度上解决搜索引擎查询信息的需求问题,提升用户体验,提高检索效率。
关键词
聚焦爬虫
可配置主题
HERITRIX
Keywords
focused crawler
configurable theme
Heritrix
分类号
G252.7 [文化科学—图书馆学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种基于Heritrix 可配置主题的聚焦爬虫方法
王松
刘洪基
叶晓波
《楚雄师范学院学报》
2020
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部