期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Nutch分布式网络爬虫研究与优化 被引量:21
1
作者 詹恒飞 杨岳湘 方宏 《计算机科学与探索》 CSCD 2011年第1期68-74,共7页
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nu... Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。 展开更多
关键词 Nutch搜索引擎 网络爬虫 弹性抓取机制
下载PDF
文本提取和相似反馈的互联网图像检索研究 被引量:1
2
作者 詹恒飞 杨岳湘 方宏 《计算机工程与应用》 CSCD 北大核心 2011年第32期186-190,共5页
使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关... 使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关键词权重计算方法,并尝试通过图像的相似性因素作为反馈进一步优化搜索结果,为用户返回最贴切的搜索结果。 展开更多
关键词 图像 文本提取 相似图像匹配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部