期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于Nutch的个性化搜索引擎的研究与探讨 被引量:3
1
作者 严春来 《电脑编程技巧与维护》 2014年第4期4-5,共2页
提出了一个基于Nutch开源搜索引擎扩展和改进的解决方案。在Nutch+Lucene+Tomcat+Sqlsever架构框架下用户进行个性化资源采集配置从而获得一个定向数据采集的搜索引擎。
关键词 nutch搜索引擎 定向数据采集 个性化
下载PDF
基于Nutch的XML网站全文搜索引擎实现 被引量:5
2
作者 吴敏琦 丁岳伟 《计算机工程》 CAS CSCD 北大核心 2008年第15期95-96,107,共3页
普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。
关键词 XML信息检索 可扩展样式表语言转换 基于nutch搜索引擎
下载PDF
基于开源搜索引擎Nutch的研究与实现
3
作者 王然 程晓荣 《电脑编程技巧与维护》 2015年第19期20-20,54,共2页
Nutch是一个Java实现的开源搜索引擎。对开源搜索引擎Nutch存在的中文分词和页面排序问题进行分析,给出了改进方法。结合Paoding分词算法对Nutch中文分词器进行改进,利用Page Rank排序算法改进了Nutch评分机制。
关键词 nutch搜索引擎 中文分词 PAGE Rank算法
下载PDF
Nutch分布式网络爬虫研究与优化 被引量:21
4
作者 詹恒飞 杨岳湘 方宏 《计算机科学与探索》 CSCD 2011年第1期68-74,共7页
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nu... Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。 展开更多
关键词 nutch搜索引擎 网络爬虫 弹性抓取机制
下载PDF
Nutch中网页排序效果的改进方法 被引量:6
5
作者 潘涛 梁正友 《计算机工程》 CAS CSCD 北大核心 2010年第13期42-44,共3页
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的... Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。 展开更多
关键词 nutch搜索引擎 MAPREDUCE模型 PAGERANK算法 JE中文分词器
下载PDF
Nutch中PageRank的并行实现 被引量:4
6
作者 梁正友 潘涛 《计算机工程与设计》 CSCD 北大核心 2010年第20期4354-4356,4409,共4页
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce... 针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。 展开更多
关键词 nutch搜索引擎 PAGERANK算法 MAPREDUCE模型 机群 并行计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部