Nutch分布式网络爬虫研究与优化被引量：21

Research and Optimization of Nutch Distributed Crawler

下载PDF

导出

摘要 Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。 As a good open-source search engine, Nutch kernel code uses a lot of MapReduce programming models, being used by more and more businesses and organizations to customize their needs in line with the distributed search engine product. As a good search engine, one of the important prerequisites is how to grab network data as much as possible to build indexes. This paper introduces Nutch＇s working mechanism based on Hadoop distributed Web crawler, points out its shortcomings and proposes an improved program, which can make Web crawler using network resources more efficiently to capture network data. Experimental results show that it is indeed more efficient than the original programs.

作者詹恒飞杨岳湘方宏

机构地区国防科学技术大学计算机学院国防科学技术大学信息中心

出处《计算机科学与探索》 CSCD 2011年第1期68-74,共7页 Journal of Frontiers of Computer Science and Technology

基金湖南省自然科学基金No.07555084 广东省科技计划项目No.2009B080701031~~

关键词 Nutch搜索引擎网络爬虫弹性抓取机制 Nutch Web crawler flexible crawling

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1杨代庆,张智雄.基于Hadoop的海量共现矩阵生成方法[J].现代图书情报技术,2009(4):23-26. 被引量：13

二级参考文献8

1HDFS Architecture [ EB/OL ]. [ 2008 - 12 - 10 ]. http ://hadoop. apache. org/core/docs/current/hdfs_design. html.
2Hadoop Cluster Setup [ EB/OL]. [ 2008 - 12 - 15 ]. http://hadoop. apache. org/core/docs/current/clustcr_setup. html.
3HadoopMapReduce [ EB/OL]. [ 2008 - 12 - 16 ]. http://wiki. apache. org/hadoop/HadoopMapReduce.
4Distributed Computing with Linux and Hadoop. [ EB/OL]. [2009 - 01 -101. http ://www. ibm. com/developerworks/linux/library/l - hadoop/index. html.
5Hbase [ EB/OL ]. [ 2009 - 01 - 10 ]. http ://hadoop. apache. org/ hbase/.
6Hive[ EB/OL]. [2009 -01 - 15 ]. http://hadoop. apache. org/hive/.
7Pig [ EB/OL ]. [ 2009 - 01 - 15 ]. http ://hadoop. apache. org/pig/.
8CloudBase [ EB/OL ]. [ 2009 - 01 - 16 ]. http ://sourceforge. net/ projects/cloudbase/.

共引文献12

1安俊秀.基于服务器集群的云检索系统的研究与示范[J].计算机科学,2010,37(7):179-182. 被引量：7
2李克然,刘东苏,邓媛.电子商务环境下海量数据存储模型[J].情报杂志,2010,29(B12):133-134. 被引量：3
3李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
4王晟,赵壁芳.云计算中MapReduce技术研究[J].通信技术,2011,44(12):159-161. 被引量：9
5杨玲,李仁发,唐卓.基于MapReduce的单源最短路径算法研究[J].微计算机信息,2011,27(12):97-99. 被引量：5
6张广弟,汪秀兵,胡亚磊.基于hadoop的DEM格网建立研究[J].科技视界,2012(28):95-95. 被引量：1
7朱贤军,李敬兆.无加密模式下对云数据的隐私保密[J].计算机技术与发展,2013,23(6):126-128. 被引量：2
8陈传夫,钱鸥,代钰珠.大数据时代的数字图书馆建设研究[J].图书情报工作,2014,58(7):40-45. 被引量：144
9蒋波涛,王艳东.基于MapReduce的地图代数并行计算方法[J].测绘地理信息,2014,39(3):51-55. 被引量：3
10陈方健,张明新,杨昆.布尔矩阵Apriori算法的MapReduce并行化实现[J].常熟理工学院学报,2014,28(2):98-101. 被引量：2

同被引文献133

1李育嫦.文献检索中提高查全率与查准率的方法探讨[J].图书馆学研究,2002(11):92-93. 被引量：26
2王宏伟.特大自然灾害的舆情监控研究[J].中国公共安全（学术版）,2008(Z1):11-15. 被引量：5
3陈予琳.关键词检索方法在科技查新中的应用研究[J].河南师范大学学报（自然科学版）,2011,39(3):171-173. 被引量：16
4崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
5吴丽辉,王斌,余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程,2005,31(3):123-124. 被引量：11
6朱庆生,邹景华.基于本体论的论文检索[J].计算机科学,2005,32(5):172-173. 被引量：20
7周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
8以科技手段辅助网络舆情突发事件的监测分析——方正智思舆情辅助决策支持系统[J].信息化建设,2005(10):50-52. 被引量：16
9杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
10刘洁清,吴京慧.面向主题的个人实时搜索引擎的设计与实现[J].现代图书情报技术,2006(5):40-43. 被引量：6

引证文献21

1焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.
2刘丰,韩辉,周蕾,齐峻瑶,徐宝梁.网络信息技术在传染病舆情监测中的应用[J].中国国境卫生检疫杂志,2012,35(4):273-276. 被引量：6
3周世龙,陈兴蜀,罗永刚.Hadoop视角下的Nutch爬行性能优化[J].计算机应用,2013,33(10):2792-2795. 被引量：6
4程森,付红阁.基于Nutch的搜索引擎与HBase的结合在大数据时代的应用探究[J].计算机光盘软件与应用,2014,17(12):59-59.
5袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
6杨洋,李晓风,赵赫,刘冰.基于网络爬虫的文献检索系统的研究和实现[J].计算机技术与发展,2014,24(11):35-38. 被引量：7
7刘全飞,周相兵.基于lucene的站群全文检索系统设计与实现[J].电脑与信息技术,2015,23(1):36-39. 被引量：1
8许闻秋,王小平,刘勇.基于Hadoop的校园网用户阅读偏好研究[J].广东通信技术,2015,35(3):15-19.
9王锡良,卿光勇,张铭.利用网络爬虫技术获取天气预报[J].电脑编程技巧与维护,2015(19):18-19. 被引量：8
10朱应坚,陈雪梅,向勇.专业、理性、应用性——信息通信时代的专业期刊[J].广东通信技术,2015,35(10):2-6.

二级引证文献71

1范午攸.查新检索式逻辑运算符选择系统[J].知识管理论坛,2024(1):57-64.
2姚乃文,梁庆炎,张赫雷,郭树城.复杂气候环境下的航空影像获取方法研究与应用[J].热带地貌,2022(1):78-82.
3唐亚纯.基于物联网技术的搜索引擎技术研究[J].计算机产品与流通,2020,9(6):174-174. 被引量：1
4金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
5李莉,陈蕾,江涛.舆情监测在人感染H7N9禽流感防控中的应用及效能分析[J].中国公共卫生管理,2013,29(6):775-776. 被引量：4
6金燕,王晓斌.虚拟社区用户信息行为研究方法的三维框架[J].图书情报工作,2012,56(14):73-76. 被引量：12
7李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：49
8王彦明.近年来Hadoop国内研究进展[J].现代情报,2014,34(8):14-19. 被引量：2
9袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
10朱应坚,陈雪梅,向勇.专业、理性、应用性——信息通信时代的专业期刊[J].广东通信技术,2015,35(10):2-6.

1王然,程晓荣.基于开源搜索引擎Nutch的研究与实现[J].电脑编程技巧与维护,2015(19):20-20.
2马睿,黄穗.基于补偿的Nutch搜索引擎的设计与实现[J].科学技术与工程,2011,11(34):8619-8623.
3梁正友,潘涛.Nutch中PageRank的并行实现[J].计算机工程与设计,2010,31(20):4354-4356. 被引量：4
4潘涛,梁正友.Nutch中网页排序效果的改进方法[J].计算机工程,2010,36(13):42-44. 被引量：6
5阳小兰,钱程,赵海廷.一种基于Nutch的网页聚类系统的设计与实现[J].计算机工程与应用,2011,47(5):118-122. 被引量：3
6陶林,谌超,强保华,王勇.基于Hadoop的Nutch网页排序算法研究与实现[J].桂林电子科技大学学报,2013,33(2):139-143. 被引量：4
7IPv6引擎产品速递[J].中国信息化,2004(1):62-62.
8IDT推出业界成本最低的32Kx72网络搜索引擎[J].电子产品与技术,2004(5):81-82.
9陈建峡,李倩倩,王春枝.基于Nutch搜索引擎的E-learning系统开发[J].湖北工业大学学报,2011,26(5):73-77.
10宋光慧,聂琰,郭建康.高校网络舆情监测系统构建及应对机制研究[J].计算机与现代化,2011(11):120-122. 被引量：9

计算机科学与探索

2011年第1期

浏览历史

内容加载中请稍等...

Nutch分布式网络爬虫研究与优化被引量：21

参考文献1

二级参考文献8

共引文献12

同被引文献133

引证文献21

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

Nutch分布式网络爬虫研究与优化 被引量：21

参考文献1

二级参考文献8

共引文献12

同被引文献133

引证文献21

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

Nutch分布式网络爬虫研究与优化被引量：21