期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于Heritrix 可配置主题的聚焦爬虫方法 被引量:1
1
作者 王松 刘洪基 叶晓波 《楚雄师范学院学报》 2020年第6期124-131,共8页
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬... 通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬取,按照预先设置的关键字和栏目信息进行分类搜索,把最符合条件和要求的信息爬取下来供选择、判断、分析和利用。这种方法可在一定程度上解决搜索引擎查询信息的需求问题,提升用户体验,提高检索效率。 展开更多
关键词 聚焦爬虫 可配置主题 HERITRIX
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部