基于Nutch的Web网站定向采集系统被引量：10

Targeted Websites Harvest System Based on Nutch

下载PDF

导出

摘要在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。 The paper analyzes typical open source Web crawl software, such as Nutch, Heritrix, WCT, and Web - Harvest. Following the analyzed result, it puts forward a targeted websites harvest system based on Nutch. Four key issues of this system are discussed emphatieally, which are the initial seed websites selection, the harvest process management, the web page content denoising, and discovering of new seed websites.

作者徐健张智雄

机构地区中国科学院国家科学图书馆中山大学资讯管理系

出处《现代图书情报技术》 CSSCI 北大核心 2009年第4期1-6,共6页 New Technology of Library and Information Service

基金国家"十一五"科技支撑计划子课题"网络科技信息监测与评价"(项目编号:2006BAH03B05)的研究成果之一

关键词网站定向采集系统 NUTCH 网站抓取网页去噪 Targeted websites harvest system Nutch Website crawl Web page denoising

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Nutch [ EB/OL ]. [ 2009 - 01 - 29 ]. http://wiki. apache.org/nutch/.
2Doug Cutting. Nutch, Open - Source Web Search[ EB/OL]. [2009 - 01 - 29 ]. http://wiki. apache. org/nutch - data/attachments/ Presentations/attachments/www2004. pdf.
3Heritrix Introduction[EB/OL]. [2009 -01 -291. http://crawler. archive. org/.
4The Web Curator Tool Project [ EB/OL]. [ 2009 - 01 - 29 ]. http ://webcurator. sourceforge. net/.
5Web - Harvest [ EB/OL ]. [ 2009 - 01 - 29]. http://web - harvest. sourceforge. net/.
6Html Parser [ EB/OL]. [ 2009 - 01 - 29 ]. http://htmlparser. sourceforge. net/.
7Intute, Best of the Web [ EB/OL]. [ 2009 - 01 - 29 ]. http:// www. intute. ac. uk/.
8Dmoz Open Directory Project[ EB/OL]. [ 2009 - 01 - 29 ]. http :// www. dmoz. org/.
9Yahoo! Developer Network [ EB/OL]. [ 2009 - 01 - 29 ]. http :// developer. yahoo. com/search/.
10Nutch Version 0. 8. x Tutorial[EB/OL]. [2009 -01 -29]. http ://lucene. apache. org/nutch/tutorial8. html.

同被引文献78

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
2张进军,张维勇,薛来文.一种基于插件的软件体系结构[J].合肥工业大学学报（自然科学版）,2005,28(4):398-401. 被引量：8
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4刘兴平,马燕,杜利峰.插件技术研究初探[J].延安大学学报（自然科学版）,2006,25(1):24-25. 被引量：21
5张学福.信息检索可视化基本问题研究[J].中国图书馆学报,2006,32(3):37-40. 被引量：15
6杨晓江,李丽娟,田俊华,李艺.面向基础教育的Web资源垂直服务体系研究[J].中国远程教育,2006(07S):53-57. 被引量：4
7杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：240
8陈艳.信息检索可视化技术[J].情报理论与实践,2006,29(5):618-621. 被引量：20
9鲍亮,陈平.基于插件技术的异构数据集成[J].计算机工程,2006,32(20):86-88. 被引量：10
10宫进,胡长军,曾广平.互联网信息定向采集系统的设计与实现[J].计算机应用,2007,27(B06):16-17. 被引量：7

引证文献10

1夏天.Nutch的插件机制分析[J].广西师范大学学报（自然科学版）,2010,28(1):105-108.
2常智荣,马自卫,李高虎.基于Nutch的专题网页资源采集服务系统的设计与实现[J].现代图书情报技术,2010(3):19-26. 被引量：3
3詹佳佳.基于Web-Harvest的Web信息抽取系统的设计与应用[J].现代图书情报技术,2010(3):76-81. 被引量：1
4郭卫兵,朱毅华.基于信息可视化的教学资源检索与导航模型构建与验证[J].现代教育技术,2011,21(2):121-124. 被引量：2
5夏天.Web数据的深度定向采集[J].山东大学学报（理学版）,2011,46(5):34-38. 被引量：1
6王小正,侯青.基于Nutch和Solr的基础教育垂直搜索引擎的实现[J].电脑知识与技术,2012,8(2):975-976. 被引量：1
7刘兴邦,赵晓娇.基于Nutch的物流信息平台网页资源定向采集系统[J].物流技术,2012,31(7):367-371. 被引量：1
8宿大东.搜索引擎在构建图书馆网站统一检索系统中的应用[J].科技情报开发与经济,2013,23(21):137-138.
9陈利东.文献检索方法的研究与改进[J].计算机系统应用,2014,23(6):262-265. 被引量：2
10胡琼妃.高职图书馆联盟学科服务模式与关键技术研究[J].图书馆学刊,2016,38(7):60-62. 被引量：3

二级引证文献13

1谭锋,李天真,崔亮亮.Web信息抽取系统研究综述[J].科技创新导报,2010,7(34):2-2. 被引量：3
2郭卫兵,朱毅华.基于信息可视化的教学资源检索与导航模型构建与验证[J].现代教育技术,2011,21(2):121-124. 被引量：2
3张玉峰,曾奕棠.语义环境下馆藏资源深度聚合结果可视化框架研究[J].图书情报知识,2014,31(5):65-71. 被引量：12
4潘侃,张林山,刘增传.技术创新平台—企业级搜索引擎搭建[J].云南电力技术,2015,43(A01):160-161.
5魏勇,胡丹露,郝晨光,欧小平.基于分类关键词词频模型的地缘政治主题爬虫设计[J].计算机工程,2016,42(2):45-50. 被引量：4
6刘中.海量图书关键词特征检索定位优化仿真研究[J].计算机仿真,2016,33(9):422-425. 被引量：5
7王榴卉,侯悦,杨现民.大数据支持下的网络学习行为采集模型设计[J].江苏开放大学学报,2016,27(4):56-63. 被引量：3
8孙雨生,李沁芸,朱礼军.国内可视化搜索引擎研究进展:架构体系与关键技术[J].现代情报,2017,37(10):172-177. 被引量：1
9韦美峰,王亚民.基于后缀树聚类的主题搜索引擎研究[J].情报理论与实践,2017,40(12):123-127. 被引量：4
10王锐芳.图书馆密文文献信息检索研究与设计[J].科学大众（科技创新）,2019,0(5):119-122.

1杨季翰.新频道新种子新希望——访陕西农林卫视频道负责人、陕西电视台副台长王渭林[J].新闻知识,2008(5):9-11. 被引量：1
2张敏,杜华.垂直搜索引擎系统的设计与实现[J].情报科学,2011,29(3):421-424. 被引量：5
3赵蓉英,陈必坤.基于Nutch的图情博客搜索引擎的设计与实现[J].情报科学,2012,30(4):486-491. 被引量：5
4张琳霞.浅谈企业竞争情报信息采集器分析与设计[J].中国科技博览,2014(24):347-347.
5秦珂.新传播权法律环境对网络出版的影响[J].电子出版,2003(6):21-23.
6刘兴邦,赵晓娇.基于Nutch的物流信息平台网页资源定向采集系统[J].物流技术,2012,31(7):367-371. 被引量：1
7詹佳佳.基于Web-Harvest的Web信息抽取系统的设计与应用[J].现代图书情报技术,2010(3):76-81. 被引量：1
8臧国全,井方.Web长期保存的困扰[J].国家图书馆学刊,2016,25(1):99-105. 被引量：2
9宿大东.搜索引擎在构建图书馆网站统一检索系统中的应用[J].科技情报开发与经济,2013,23(21):137-138.
10胡琼妃.高职图书馆联盟学科服务模式与关键技术研究[J].图书馆学刊,2016,38(7):60-62. 被引量：3

现代图书情报技术

2009年第4期

浏览历史

内容加载中请稍等...

基于Nutch的Web网站定向采集系统被引量：10

参考文献10

同被引文献78

引证文献10

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于Nutch的Web网站定向采集系统 被引量：10

参考文献10

同被引文献78

引证文献10

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于Nutch的Web网站定向采集系统被引量：10