期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Heritrix的增量式爬虫设计与实现 被引量:6
1
作者 孟庆浩 王晶 沈奇威 《电信技术》 2014年第9期97-101,101+99-100,共5页
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix... Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。 展开更多
关键词 HERITRIX 网络爬虫 增量抓取 Index型网页
下载PDF
基于Heritrix的面向电子商务网站增量爬虫研究 被引量:6
2
作者 杨颂 欧阳柳波 《软件导刊》 2010年第7期38-39,共2页
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对... 针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。 展开更多
关键词 HERITRIX 增量抓取 爬行策略 电子商务
下载PDF
基于Heritrix的增量式网络爬虫研究 被引量:3
3
作者 张皓 周学广 《软件导刊》 2013年第11期135-137,共3页
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。
关键词 HERITRIX HASH 网络爬虫 增量抓取
下载PDF
利用Nutch设计实现生物医学信息垂直搜索引擎
4
作者 王小磊 李立 赵东升 《北京生物医学工程》 2010年第6期638-640,644,共4页
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内... 在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。 展开更多
关键词 NUTCH 网络信息抓取 LUCENE 中文分词 增量抓取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部