期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
基于Heritrix限定爬虫的设计与实现 被引量:13
1
作者 张敏 孙敏 《计算机应用与软件》 CSCD 北大核心 2013年第4期33-35,80,共4页
目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Herit... 目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Heritrix框架实现了通过IP地址限制爬虫只抓取某一地区主机上的网页。最后通过相关实验表明限定爬虫的合理性和实用性。 展开更多
关键词 限定爬虫 heritrix IP地址 合理性 实用性
下载PDF
基于Lucene/Heritrix的垂直搜索引擎的研究与应用 被引量:21
2
作者 白坤 耿国华 《计算机应用与软件》 CSCD 2009年第1期212-215,247,共5页
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。探讨了Lucene和Heritrix在构建垂直搜索引擎中的... Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 展开更多
关键词 LUCENE heritrix 垂直搜索引擎
下载PDF
基于Heritrix的主题爬虫在互联网舆情系统中应用 被引量:5
3
作者 肖江 季节 《电子设计工程》 2015年第6期30-32,共3页
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分... 在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分析其结构特征与工作原理并引入了多线程处理的改进办法,设计出一个主题爬虫,在单机环境下进行该爬虫性能的测试。实验结果表明该主题爬虫的查全率达到较高水准,为进一步研究开发搜索效率高的垂直搜索引擎打下坚实的基础。 展开更多
关键词 舆情系统 主题爬虫 heritrix 多线程
下载PDF
基于Heritrix的web信息抽取优化与实现 被引量:5
4
作者 吴伟 陈建峡 《湖北工业大学学报》 2012年第2期23-26,共4页
针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度.实验表明本文的优化技术可行.
关键词 多线程 heritrix WEB信息抽取
下载PDF
基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现 被引量:6
5
作者 王琦 张戈 何婧 《计算机时代》 2010年第2期12-14,共3页
垂直搜索引擎是针对某一领域的搜索引擎,它可以帮助用户在海量数据面前进行快速、专业、精准的检索。文章研究了垂直搜索引擎的特点,对Lucene与Heritrix的架构与主要模块功能进行了分析,设计并开发了图书垂直搜索引擎系统,为用户提供快... 垂直搜索引擎是针对某一领域的搜索引擎,它可以帮助用户在海量数据面前进行快速、专业、精准的检索。文章研究了垂直搜索引擎的特点,对Lucene与Heritrix的架构与主要模块功能进行了分析,设计并开发了图书垂直搜索引擎系统,为用户提供快捷、专业的图书信息检索服务。 展开更多
关键词 垂直搜索引擎 图书 LUCENE heritrix
下载PDF
基于Heritrix的视频垂直搜索引擎 被引量:3
6
作者 张林 《计算机系统应用》 2016年第9期52-59,共8页
针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索.搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统... 针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索.搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统的开销,改变了以往传统搜索引擎网页全文收录的做法,筛选了无用信息,对页面信息的提取,以及播放链接的提取过程具有一定的创新性. 展开更多
关键词 垂直搜索引擎 视频 LUCENE heritrix
下载PDF
Heritrix在垂直搜索引擎中的应用 被引量:7
7
作者 白万民 苏希乐 《计算机时代》 2011年第9期7-9,共3页
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。
关键词 垂直搜索引擎 网络爬虫 heritrix 多线程
下载PDF
一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例 被引量:5
8
作者 孙庚 冯艳红 +1 位作者 于红 史鹏辉 《软件导刊》 2010年第5期47-49,共3页
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域... 以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。 展开更多
关键词 定题爬虫 搜索引擎 heritrix
下载PDF
基于Heritrix的网络爬虫研究与应用 被引量:4
9
作者 刘高军 夏景隆 《软件导刊》 2013年第5期123-125,共3页
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信... 主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 展开更多
关键词 网络爬虫 主题搜索引擎 heritrix URL地址去重 BKDRHash算法
下载PDF
基于Heritrix+Lucene的高校图书馆网站全文搜索引擎构建 被引量:1
10
作者 华京生 李萍 《情报探索》 2013年第9期101-105,共5页
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基... 调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基本功能的高校图书馆搜索引擎,以期为后续的研究打下基础。 展开更多
关键词 搜索引擎 数字图书馆 heritrix LUCENE HTMLPARSER
下载PDF
基于Heritrix与Solr的就业主题搜索引擎的研究与优化 被引量:3
11
作者 郑燕娥 郑志明 《齐齐哈尔大学学报(自然科学版)》 2018年第4期13-20,共8页
随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Herit... 随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。 展开更多
关键词 就业主题 垂直搜索引擎 heritrix SOLR IKAnalyzer
下载PDF
基于Heritrix与Lucene的地震专业搜索引擎设计 被引量:1
12
作者 孙静 李亚龙 万杰 《地震地磁观测与研究》 2016年第5期172-178,共7页
随着网络科技的发展,用户对搜索引擎提出更高要求,专业搜索引擎应运而生并不断发展壮大。对地震专业搜索引擎进行系统研究,提出一种基于网络爬虫Heritrix和开源全文信息检索包Lucene的专业检索解决方案,完成信息资源抓取、镜像文件建立... 随着网络科技的发展,用户对搜索引擎提出更高要求,专业搜索引擎应运而生并不断发展壮大。对地震专业搜索引擎进行系统研究,提出一种基于网络爬虫Heritrix和开源全文信息检索包Lucene的专业检索解决方案,完成信息资源抓取、镜像文件建立及索引、搜索等关键操作的建立。 展开更多
关键词 地震 heritrix LUCENE 索引 搜索
下载PDF
Heritrix在电子信息垂直搜索平台中的应用 被引量:2
13
作者 赵永鑫 雷霖 《成都大学学报(自然科学版)》 2013年第2期156-158,共3页
介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向... 介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源. 展开更多
关键词 heritrix ELFHash算法 多线程 电子信息 垂直搜索引擎
下载PDF
基于Heritrix体系结构的垂直搜索引擎研究 被引量:1
14
作者 陈浩 关巍 《电脑知识与技术》 2012年第5X期3662-3664,共3页
垂直搜索引擎作为一种新型的搜索引擎服务模式,它的出现彻底解决了通用搜索引擎中一直存在的信息量大、查询不准确、深度不够等一系列问题。该文通过对Heritrix体系结构的深入分析,详细阐述了Heritrix在垂直搜索引擎中实现数据搜集的整... 垂直搜索引擎作为一种新型的搜索引擎服务模式,它的出现彻底解决了通用搜索引擎中一直存在的信息量大、查询不准确、深度不够等一系列问题。该文通过对Heritrix体系结构的深入分析,详细阐述了Heritrix在垂直搜索引擎中实现数据搜集的整个过程。 展开更多
关键词 垂直搜索引擎 网络蜘蛛 heritrix 体系结构
下载PDF
使用Heritrix和Lucence的全文检索解决方案 被引量:1
15
作者 周文勤 《甘肃联合大学学报(自然科学版)》 2012年第4期52-56,共5页
对全文检索技术进行了介绍,提出了一种基于网络爬虫Heritrix和开源全文信息检索包Lucence的全文检索解决方案.该方案将Web应用中经常用到的全文检索功能进行封装,使其可以很方便地被集成到Java EE项目中.本方案被用于校园网内容检索功... 对全文检索技术进行了介绍,提出了一种基于网络爬虫Heritrix和开源全文信息检索包Lucence的全文检索解决方案.该方案将Web应用中经常用到的全文检索功能进行封装,使其可以很方便地被集成到Java EE项目中.本方案被用于校园网内容检索功能的实现,实践证明,该解决方案简单易用、应用效果较好. 展开更多
关键词 全文检索 LUCENE JAVA EE heritrix
下载PDF
基于Heritrix与Lucene的垂直搜索引擎研究
16
作者 张雷 《黑龙江科技信息》 2011年第29期102-102,共1页
垂直搜索是针对某一个行业的专业搜索引擎;Lucene是Java编写的全文索引引擎工具包,可以跨平台使用;Heritrix是一个功能强大的开源Web网络爬虫。本文主要探讨Lucene和Heritrix在构建垂直搜索引擎中的应用。
关键词 垂直搜索引擎 heritrix LUCENE 网络爬虫
下载PDF
基于Lucene2.0和Heritrix搜索引擎的应用研究
17
作者 周少波 《电脑编程技巧与维护》 2014年第20期41-41,47,共2页
基于Lucene2.0和Heritrix的搜索引擎是以广东技术师范学院天河学院为对象构建的,着重开发一个简单的网络垂直搜索引擎,实现一个简单的搜索引擎所具备的基本功能,为今后搭建一个标准的、实用的、商业化的搜索引擎打下坚实的基础。
关键词 搜索引擎 网络爬虫 Lucene软件 heritrix程序 JAVA语言
下载PDF
基于Heritrix的面向特定主题的聚焦爬虫研究 被引量:7
18
作者 朱敏 罗省贤 《计算机技术与发展》 2012年第2期65-68,共4页
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效... 通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。 展开更多
关键词 聚焦爬虫 heritrix BKDRHash算法 HTMLPARSER 搜索引擎
下载PDF
基于Heritrix视频资源抓取的研究与实现 被引量:1
19
作者 徐枫 归伟夏 《集成技术》 2014年第3期85-91,共7页
教学视频资源是教学资源库的重要组成部分,对视频资源的添加是系统平台的一项重要工作。目前很多教学资源库对视频资源的添加采用手工方式进行,效率不理想且工作量极大。通过引入网络爬虫,利用Heritrix的扩展功能,可以定制相应的模块,... 教学视频资源是教学资源库的重要组成部分,对视频资源的添加是系统平台的一项重要工作。目前很多教学资源库对视频资源的添加采用手工方式进行,效率不理想且工作量极大。通过引入网络爬虫,利用Heritrix的扩展功能,可以定制相应的模块,使其自动抓取网络上的课程视频资源。而通过优化其抓取算法,可以提高资源库中视频的抓取效率和准确率。 展开更多
关键词 视频资源 heritrix抓取 主题爬虫 垂直搜索
下载PDF
基于Heritrix的增量式爬虫设计与实现 被引量:6
20
作者 孟庆浩 王晶 沈奇威 《电信技术》 2014年第9期97-101,101+99-100,共5页
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix... Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。 展开更多
关键词 heritrix 网络爬虫 增量抓取 Index型网页
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部