期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Heritrix的增量式爬虫设计与实现
被引量:
6
1
作者
孟庆浩
王晶
沈奇威
《电信技术》
2014年第9期97-101,101+99-100,共5页
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix...
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。
展开更多
关键词
HERITRIX
网络爬虫
增量抓取
Index型网页
下载PDF
职称材料
基于Heritrix的面向电子商务网站增量爬虫研究
被引量:
6
2
作者
杨颂
欧阳柳波
《软件导刊》
2010年第7期38-39,共2页
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对...
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。
展开更多
关键词
HERITRIX
增量抓取
爬行策略
电子商务
下载PDF
职称材料
基于Heritrix的增量式网络爬虫研究
被引量:
3
3
作者
张皓
周学广
《软件导刊》
2013年第11期135-137,共3页
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。
关键词
HERITRIX
HASH
网络爬虫
增量抓取
下载PDF
职称材料
利用Nutch设计实现生物医学信息垂直搜索引擎
4
作者
王小磊
李立
赵东升
《北京生物医学工程》
2010年第6期638-640,644,共4页
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内...
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。
展开更多
关键词
NUTCH
网络信息
抓取
LUCENE
中文分词
增量抓取
下载PDF
职称材料
题名
基于Heritrix的增量式爬虫设计与实现
被引量:
6
1
作者
孟庆浩
王晶
沈奇威
机构
北京邮电大学网络与交换技术国家重点实验室
东信北邮信息技术有限公司
出处
《电信技术》
2014年第9期97-101,101+99-100,共5页
基金
国家973计划项目(No.2013CB329102)
国家自然科学基金资助项目(No.61372120
+5 种基金
61271019
61101119
61121001)
长江学者和创新团队发展计划资助(No.IRT1049)
教育部科学技术研究重点(重大)项目资助(No.MCM20130310)
北京高等学校青年英才计划项目(No.YETP0473)
文摘
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限。针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.x的页面下载功能,又能高效地对数据进行增量抓取。
关键词
HERITRIX
网络爬虫
增量抓取
Index型网页
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Heritrix的面向电子商务网站增量爬虫研究
被引量:
6
2
作者
杨颂
欧阳柳波
机构
湖南大学软件学院
出处
《软件导刊》
2010年第7期38-39,共2页
文摘
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。
关键词
HERITRIX
增量抓取
爬行策略
电子商务
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Heritrix的增量式网络爬虫研究
被引量:
3
3
作者
张皓
周学广
机构
海军工程大学信息安全系
出处
《软件导刊》
2013年第11期135-137,共3页
文摘
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。
关键词
HERITRIX
HASH
网络爬虫
增量抓取
Keywords
Heritrix
Hash
Web Cramler
Incremental
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
利用Nutch设计实现生物医学信息垂直搜索引擎
4
作者
王小磊
李立
赵东升
机构
军事医学科学院卫生勤务与医学情报研究所
出处
《北京生物医学工程》
2010年第6期638-640,644,共4页
文摘
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。
关键词
NUTCH
网络信息
抓取
LUCENE
中文分词
增量抓取
Keywords
Nutch soflware
crawl
Lucene software
Chinese word segmentation
re-crawl
分类号
R318.04 [医药卫生—生物医学工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Heritrix的增量式爬虫设计与实现
孟庆浩
王晶
沈奇威
《电信技术》
2014
6
下载PDF
职称材料
2
基于Heritrix的面向电子商务网站增量爬虫研究
杨颂
欧阳柳波
《软件导刊》
2010
6
下载PDF
职称材料
3
基于Heritrix的增量式网络爬虫研究
张皓
周学广
《软件导刊》
2013
3
下载PDF
职称材料
4
利用Nutch设计实现生物医学信息垂直搜索引擎
王小磊
李立
赵东升
《北京生物医学工程》
2010
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部