-
题名Nutch分布式网络爬虫研究与优化
被引量:21
- 1
-
-
作者
詹恒飞
杨岳湘
方宏
-
机构
国防科学技术大学计算机学院
国防科学技术大学信息中心
-
出处
《计算机科学与探索》
CSCD
2011年第1期68-74,共7页
-
基金
湖南省自然科学基金No.07555084
广东省科技计划项目No.2009B080701031~~
-
文摘
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。
-
关键词
Nutch搜索引擎
网络爬虫
弹性抓取机制
-
Keywords
Nutch
Web crawler
flexible crawling
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名文本提取和相似反馈的互联网图像检索研究
被引量:1
- 2
-
-
作者
詹恒飞
杨岳湘
方宏
-
机构
国防科技大学计算机学院
国防科技大学信息中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第32期186-190,共5页
-
基金
湖南省自然科学基金(No.07555084)
广东省科技计划项目(No.2009B080701031)
-
文摘
使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关键词权重计算方法,并尝试通过图像的相似性因素作为反馈进一步优化搜索结果,为用户返回最贴切的搜索结果。
-
关键词
图像
文本提取
相似图像匹配
-
Keywords
image
text extraction
similar image matching
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-