期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
基于Heritrix限定爬虫的设计与实现 被引量:13
1
作者 张敏 孙敏 《计算机应用与软件》 CSCD 北大核心 2013年第4期33-35,80,共4页
目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Herit... 目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Heritrix框架实现了通过IP地址限制爬虫只抓取某一地区主机上的网页。最后通过相关实验表明限定爬虫的合理性和实用性。 展开更多
关键词 限定爬虫 heritrix IP地址 合理性 实用性
下载PDF
基于Heritrix的主题爬虫在互联网舆情系统中应用 被引量:5
2
作者 肖江 季节 《电子设计工程》 2015年第6期30-32,共3页
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分... 在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分析其结构特征与工作原理并引入了多线程处理的改进办法,设计出一个主题爬虫,在单机环境下进行该爬虫性能的测试。实验结果表明该主题爬虫的查全率达到较高水准,为进一步研究开发搜索效率高的垂直搜索引擎打下坚实的基础。 展开更多
关键词 舆情系统 主题爬虫 heritrix 多线程
下载PDF
基于分层结构保留的增量网络爬虫算法 被引量:3
3
作者 胡廉民 张泽斌 +2 位作者 徐威迪 黄翰 李英 《计算机应用研究》 CSCD 北大核心 2013年第8期2381-2385,共5页
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网... 为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下,实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。 展开更多
关键词 网络爬虫 URL过滤器 层次结构保存 频率模型
下载PDF
一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例 被引量:5
4
作者 孙庚 冯艳红 +1 位作者 于红 史鹏辉 《软件导刊》 2010年第5期47-49,共3页
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域... 以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。 展开更多
关键词 定题爬虫 搜索引擎 heritrix
下载PDF
基于Heritrix的网络爬虫研究与应用 被引量:4
5
作者 刘高军 夏景隆 《软件导刊》 2013年第5期123-125,共3页
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信... 主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 展开更多
关键词 网络爬虫 主题搜索引擎 heritrix URL地址去重 BKDRHash算法
下载PDF
基于Heritrix体系结构的垂直搜索引擎研究 被引量:1
6
作者 陈浩 关巍 《电脑知识与技术》 2012年第5X期3662-3664,共3页
垂直搜索引擎作为一种新型的搜索引擎服务模式,它的出现彻底解决了通用搜索引擎中一直存在的信息量大、查询不准确、深度不够等一系列问题。该文通过对Heritrix体系结构的深入分析,详细阐述了Heritrix在垂直搜索引擎中实现数据搜集的整... 垂直搜索引擎作为一种新型的搜索引擎服务模式,它的出现彻底解决了通用搜索引擎中一直存在的信息量大、查询不准确、深度不够等一系列问题。该文通过对Heritrix体系结构的深入分析,详细阐述了Heritrix在垂直搜索引擎中实现数据搜集的整个过程。 展开更多
关键词 垂直搜索引擎 网络蜘蛛 heritrix 体系结构
下载PDF
基于Heritrix的面向特定主题的聚焦爬虫研究 被引量:7
7
作者 朱敏 罗省贤 《计算机技术与发展》 2012年第2期65-68,共4页
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效... 通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。 展开更多
关键词 聚焦爬虫 heritrix BKDRHash算法 HTMLPARSER 搜索引擎
下载PDF
基于链接结构和内容相似度的聚焦爬虫系统 被引量:3
8
作者 倪贤贵 蔡明 《计算机工程与设计》 CSCD 北大核心 2008年第7期1709-1710,1763,共3页
介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容... 介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率。 展开更多
关键词 聚焦爬虫 链接结构 内容相似度 向量空间模型 查准率
下载PDF
基于Heritrix的增量式爬虫设计与实现 被引量:6
9
作者 孟庆浩 王晶 沈奇威 《电信技术》 2014年第9期97-101,101+99-100,共5页
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix... Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。 展开更多
关键词 heritrix 网络爬虫 增量抓取 Index型网页
下载PDF
基于Heritrix的主题网络爬虫设计与实现 被引量:3
10
作者 高伟锋 《南宁职业技术学院学报》 2011年第1期97-100,共4页
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得... 通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。 展开更多
关键词 heritrix 主题网络爬虫 遗传算法 搜索引擎
下载PDF
基于Heritrix的增量式网络爬虫研究 被引量:3
11
作者 张皓 周学广 《软件导刊》 2013年第11期135-137,共3页
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。
关键词 heritrix HASH 网络爬虫 增量抓取
下载PDF
larbin网络爬虫的体系结构 被引量:3
12
作者 孟时 王彦 《电脑学习》 2010年第4期80-81,共2页
本文通过对larbin网络爬虫的研究后总结出了larbin网络爬虫的体系结构,然后结合该爬虫详细介绍了整个体系结构的工作过程,最后介绍了larbin网络爬虫的特点。
关键词 larbin 网络爬虫 体系结构 HASH
下载PDF
基于Heritrix的商品信息搜索的网络爬虫系统的设计 被引量:2
13
作者 袁小洁 《电脑编程技巧与维护》 2012年第22期74-74,81,共2页
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面... 探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。 展开更多
关键词 heritrix 网络爬虫 爬虫 商品信息采集
下载PDF
Heritrix主题爬虫设计
14
作者 张亚凤 郑山红 《长春工业大学学报》 CAS 2016年第5期507-511,共5页
通过扩展Heritrix相应组件来抓取特定网页,实现预定的抓取策略,并加入APHash算法对URL进行散列,达到了多线程抓取网页的目的,极大地提高了抓取数据的效率。
关键词 垂直搜索引擎 主题爬虫 heritrix APHash算法
下载PDF
网民眼中的政府反腐败——基于网络爬虫和结构主题模型的分析(2012-2017) 被引量:4
15
作者 郑崇明 《广州大学学报(社会科学版)》 2020年第2期91-100,共10页
大数据分析技术与廉政建设相结合成为新时期廉政研究的重要方向。通过网络爬虫获取2012-2017年的海量微博数据,运用结构主题模型方法,聚焦党的十八大以来网民讨论的20个政府反腐败主题。研究发现,大部分微博内容与“中国官场—大地震”... 大数据分析技术与廉政建设相结合成为新时期廉政研究的重要方向。通过网络爬虫获取2012-2017年的海量微博数据,运用结构主题模型方法,聚焦党的十八大以来网民讨论的20个政府反腐败主题。研究发现,大部分微博内容与“中国官场—大地震”主题紧密相关,说明网民对党和政府反腐败的力度和决心之大感到震撼,微博所讨论的话题与纪检监察机关的反腐败工作重点具有高度的契合性。通过统计建模发现,网民性别和网络影响力显著影响主题占比高低和主题内容差异。该研究在考量方法上,有利于实现政府反腐败绩效评价的具体化,弥补以往单一指标评价的偏误性;在政策实践上,党风廉政建设宜重点关注公众需求,切实提高公民反腐败获得感。 展开更多
关键词 反腐败 评价 网络爬虫 结构主题模型 大数据
下载PDF
一种基于Heritrix 可配置主题的聚焦爬虫方法 被引量:1
16
作者 王松 刘洪基 叶晓波 《楚雄师范学院学报》 2020年第6期124-131,共8页
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬... 通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题。从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬取,按照预先设置的关键字和栏目信息进行分类搜索,把最符合条件和要求的信息爬取下来供选择、判断、分析和利用。这种方法可在一定程度上解决搜索引擎查询信息的需求问题,提升用户体验,提高检索效率。 展开更多
关键词 聚焦爬虫 可配置主题 heritrix
下载PDF
基于关键词过滤与结构化输出的网络爬虫系统设 被引量:1
17
作者 金鲁峰 邰剑秋 张旭 《中国传媒科技》 2012年第4期54-56,共3页
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息... 通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。 展开更多
关键词 网络爬虫 系统构架 结构 关键词 过滤 信息内容 信息主体
下载PDF
自动结构化数据的电商网站主题爬虫研究
18
作者 张倩 林安成 廖秀秀 《计算机系统应用》 2018年第7期90-95,共6页
当前对于拥有海量数据的互联网,经常需要采集多个源站的结构化数据以用于数据分析、挖掘,而为不同网站定制数据采集程序的人工成本很高,本文提出了一种自动结构化网站数据的主题爬虫方案.以电商类网站为例,基于其具有统一层次结构、垂... 当前对于拥有海量数据的互联网,经常需要采集多个源站的结构化数据以用于数据分析、挖掘,而为不同网站定制数据采集程序的人工成本很高,本文提出了一种自动结构化网站数据的主题爬虫方案.以电商类网站为例,基于其具有统一层次结构、垂直领域拥有行业语料和规范的特点,从理论角度确定了结构化提取方案的可行性.提出相似重复检测和基于属性语义的标签匹配等算法,实现结构的分析和目标字段的匹配,并出于系统管理和调优的考虑,设计了预设匹配模板和结构分析结果复用机制.实际应用和错误率测试表明,本方案具有很强的可行性,能够大大减少人工编写的代码,错误率较低.设计思路可应用于其他领域的主题爬虫系统,快速获得多个站点的大量数据,将焦点更多地放在结构化数据的处理和信息挖掘. 展开更多
关键词 自动结构 爬虫 标签匹配 多源站 电商网站
下载PDF
网络爬虫在Web信息搜索与数据挖掘中应用 被引量:37
19
作者 杨定中 赵刚 王泰 《计算机工程与设计》 CSCD 北大核心 2009年第24期5658-5662,共5页
分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理。分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该... 分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理。分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该爬虫不同于其它爬虫的功能和在Web信息搜索与数据挖掘体系中应用。通过试验测试表明,该爬虫能够很好地获取万维网上的各种信息资源,有助于网络文化内容监测与管理。 展开更多
关键词 WEB搜索 WEB挖掘 网络爬虫 体系结构 应用
下载PDF
链接分析对主题爬虫的改进 被引量:12
20
作者 汪涛 樊孝忠 《计算机应用》 CSCD 北大核心 2004年第B12期174-176,共3页
在分析总结两种主题爬虫设计的基础之上,研究了用链接分析改进主题爬虫的方法。通 过实验,比较引入链接分析前后的结果,论证了其设计可行性与可操作性,为实现定向信息采集奠定 了良好的基础。
关键词 链接分析 WEB结构挖掘 主题爬虫 相关度 信息采集
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部