期刊文献+
共找到102篇文章
< 1 2 6 >
每页显示 20 50 100
基于Nutch农业搜索引擎的研究与设计 被引量:15
1
作者 周鹏 吴华瑞 +2 位作者 赵春江 杨宝祝 朱华吉 《计算机工程与设计》 CSCD 北大核心 2009年第3期610-612,共3页
针对目前通用搜索引擎对专门领域及特定主题信息覆盖率较低,在开源的Nutch搜索引擎架构的基础上,通过Hash索引在多语种农业叙词表AGROVOC上进行农业词典的构建,利用已有的空间向量算法进行农业相关度计算,并结合Page-Rank的改进算法对... 针对目前通用搜索引擎对专门领域及特定主题信息覆盖率较低,在开源的Nutch搜索引擎架构的基础上,通过Hash索引在多语种农业叙词表AGROVOC上进行农业词典的构建,利用已有的空间向量算法进行农业相关度计算,并结合Page-Rank的改进算法对结果综合排序,搭建了一个面向互联网上农业相关信息资源的搜索引擎。相对于通用搜索引擎来说减少了搜索结果的信息量,提高了搜索速度,同时提高了专业信息搜索的准确率。 展开更多
关键词 nutch 搜索引擎 农业词典 主题过滤 网页排序
下载PDF
基于Nutch的垂直搜索引擎的设计和实现 被引量:15
2
作者 邵秀丽 刘彬 张涛 《计算机工程与设计》 CSCD 北大核心 2011年第2期539-542,548,共5页
为了提高搜索引擎的主题倾向性和准确率,在Nutch平台上实现了带有中文分词插件的垂直搜索引擎,给出了改进后引擎的系统功能和体系结构,并从用例角度分析了系统的功能,介绍了基于该体系结构实现的港口物流信息垂直搜索引擎以及和一般引... 为了提高搜索引擎的主题倾向性和准确率,在Nutch平台上实现了带有中文分词插件的垂直搜索引擎,给出了改进后引擎的系统功能和体系结构,并从用例角度分析了系统的功能,介绍了基于该体系结构实现的港口物流信息垂直搜索引擎以及和一般引擎运行情况的比较。实验结果表明,这些改进提高了主题判别的准确度和效率,使信息的定位和查找更加精确,减少了不相关信息的干扰,并提高了系统对于互联网复杂环境的处理能力。 展开更多
关键词 nutch平台 垂直搜索 体系结构 用例分析 主题搜索
下载PDF
Nutch分布式网络爬虫研究与优化 被引量:21
3
作者 詹恒飞 杨岳湘 方宏 《计算机科学与探索》 CSCD 2011年第1期68-74,共7页
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nu... Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。 展开更多
关键词 nutch搜索引擎 网络爬虫 弹性抓取机制
下载PDF
Hadoop云平台下Nutch中文分词的研究与实现 被引量:5
4
作者 朱潜 吴辰铌 +1 位作者 朱志良 刘洪娟 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2772-2776,共5页
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问... Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义. 展开更多
关键词 nutch HADOOP 中文分词 云计算
下载PDF
Hadoop视角下的Nutch爬行性能优化 被引量:6
5
作者 周世龙 陈兴蜀 罗永刚 《计算机应用》 CSCD 北大核心 2013年第10期2792-2795,共4页
通过对NutchMapReducejob配置参数调优而优化Nutch爬行性能。以Hadoop视角梳理Nutch爬行过程,并基于此详细分析NutchMapReducejob的工作流特性;对Nutch爬行时MapReducejob进行持续监测,生成优化参数并代入下一轮相同类型的job运行中... 通过对NutchMapReducejob配置参数调优而优化Nutch爬行性能。以Hadoop视角梳理Nutch爬行过程,并基于此详细分析NutchMapReducejob的工作流特性;对Nutch爬行时MapReducejob进行持续监测,生成优化参数并代入下一轮相同类型的job运行中,从而达到优化目的;通过选取合适的间隔监测值平衡集群环境误差和监测负载以改进优化效果。经过实验测试,Nutch的爬行性能提高了5%~14%,且当监测间隔值为5时有最好优化效果。 展开更多
关键词 nutch HADOOP MAPREDUCE 工作流 性能优化
下载PDF
一种基于Nutch的网页聚类系统的设计与实现 被引量:3
6
作者 阳小兰 钱程 赵海廷 《计算机工程与应用》 CSCD 北大核心 2011年第5期118-122,共5页
设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通... 设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。 展开更多
关键词 nutch 聚类 K-MEANS 后缀树
下载PDF
基于Nutch的Web网站定向采集系统 被引量:10
7
作者 徐健 张智雄 《现代图书情报技术》 CSSCI 北大核心 2009年第4期1-6,共6页
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
关键词 网站定向采集系统 nutch 网站抓取 网页去噪
下载PDF
Nutch中网页排序效果的改进方法 被引量:6
8
作者 潘涛 梁正友 《计算机工程》 CAS CSCD 北大核心 2010年第13期42-44,共3页
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的... Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。 展开更多
关键词 nutch搜索引擎 MAPREDUCE模型 PAGERANK算法 JE中文分词器
下载PDF
Nutch中PageRank的并行实现 被引量:4
9
作者 梁正友 潘涛 《计算机工程与设计》 CSCD 北大核心 2010年第20期4354-4356,4409,共4页
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce... 针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。 展开更多
关键词 nutch搜索引擎 PAGERANK算法 MAPREDUCE模型 机群 并行计算
下载PDF
Nutch-0.9中JE中文分词的实现 被引量:5
10
作者 蔡小艳 寇应展 +1 位作者 沈巍 郑伟 《科学技术与工程》 2008年第17期4881-4884,4890,共5页
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。
关键词 nutch LUCENE JE分词 中文分词
下载PDF
基于Nutch的XML网站全文搜索引擎实现 被引量:5
11
作者 吴敏琦 丁岳伟 《计算机工程》 CAS CSCD 北大核心 2008年第15期95-96,107,共3页
普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。
关键词 XML信息检索 可扩展样式表语言转换 基于nutch的搜索引擎
下载PDF
基于Hadoop的Nutch网页排序算法研究与实现 被引量:4
12
作者 陶林 谌超 +1 位作者 强保华 王勇 《桂林电子科技大学学报》 2013年第2期139-143,共5页
为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布... 为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。 展开更多
关键词 HADOOP集群 MAPREDUCE nutch 网页排序算法 PAGERANK
下载PDF
基于Nutch的节能减排垂直搜索引擎设计与实现 被引量:1
13
作者 袁志祥 张飞 +2 位作者 鲍威 孙国华 刘明 《计算机工程与设计》 北大核心 2016年第9期2565-2570,共6页
为提高搜索引擎检索节能减排领域信息的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Nutch开源框架设计实现节能减排垂直搜索引擎。采用网页模板技术对网页信息进行提取,利用改进的TF-IDF算法进行特征词表示,采用基于... 为提高搜索引擎检索节能减排领域信息的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Nutch开源框架设计实现节能减排垂直搜索引擎。采用网页模板技术对网页信息进行提取,利用改进的TF-IDF算法进行特征词表示,采用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯分类算法对网页信息进行分类。实验结果表明,该搜索引擎可有效对节能减排的相关信息进行检索。 展开更多
关键词 节能减排 垂直搜索引擎 nutch 向量空间模型 朴素贝叶斯
下载PDF
汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现 被引量:6
14
作者 蔡小艳 寇应展 +1 位作者 沈巍 郑伟 《军械工程学院学报》 2008年第5期63-66,70,共5页
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统... 分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统实现的中文分词完善了Nutch的中文搜索功能。 展开更多
关键词 nutch LUCENE ICTCLAS 中文分词 汉语词法分析系统
下载PDF
基于Nutch爬虫的电商交易价格统计研究 被引量:3
15
作者 阳黎明 苏理云 《重庆理工大学学报(自然科学)》 CAS 2017年第1期152-157,共6页
将电商交易数据纳入价格指数架构是目前统计工作关注的焦点。应用大数据技术,将Nutch爬虫搭建在分布式集群上,构建分布式网络数据抓取系统,同时结合最新的AP聚类算法对数据进行预处理,然后对网上数据进行价格指数建模,进行价格指数试算... 将电商交易数据纳入价格指数架构是目前统计工作关注的焦点。应用大数据技术,将Nutch爬虫搭建在分布式集群上,构建分布式网络数据抓取系统,同时结合最新的AP聚类算法对数据进行预处理,然后对网上数据进行价格指数建模,进行价格指数试算。试算结果表明:基于分布式集群下的Nutch网络爬虫技术较好地完成了网络交易数据抓取任务。因此,计算的网上交易数据价格指数可较好地反映市场价格变化趋势。 展开更多
关键词 电商交易数据 分布式集群 nutch 价格指数
下载PDF
Nutch中文分词插件的编写与实现 被引量:1
16
作者 蔡小艳 沈巍 +1 位作者 胡婷婷 曹永刚 《信息技术》 2010年第2期97-100,103,共5页
开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nutch的插件机制,结合中科院的中文分词系统ICTCLAS,成功地实现了Nutch对中文的词语切分,完善了基于Nutch的中文搜索引擎的... 开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nutch的插件机制,结合中科院的中文分词系统ICTCLAS,成功地实现了Nutch对中文的词语切分,完善了基于Nutch的中文搜索引擎的开发。 展开更多
关键词 nutch ICLCLAS 插件机制 中文分词
下载PDF
基于Nutch的垂直搜索引擎系统 被引量:1
17
作者 李耀芳 张涛 《计算机系统应用》 2011年第9期193-196,47,共5页
由于通用搜索引擎搜索精度不高,而国内各大物流港口搜索有效性较低,设计基于Nutch的港口物流垂直搜索引擎系统,实现了各个港口物流信息的快捷查询和共享。系统采用了基于向量空间模型的主题相关度判别算法并对该算法进行改进,加入元数... 由于通用搜索引擎搜索精度不高,而国内各大物流港口搜索有效性较低,设计基于Nutch的港口物流垂直搜索引擎系统,实现了各个港口物流信息的快捷查询和共享。系统采用了基于向量空间模型的主题相关度判别算法并对该算法进行改进,加入元数据判别机制和重要标签所包含关键词的加权处理。加入"隧道处理"机制,以处理主题网页分离的问题,并且修改了检索结果排序的源代码,使其更适应垂直搜索引擎的要求。 展开更多
关键词 nutch垂直搜索 向量空间模型 索引检索
下载PDF
Nutch中网页更新预测研究与优化 被引量:1
18
作者 胡伟 吴海涛 《上海师范大学学报(自然科学版)》 2016年第4期448-457,共10页
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapRed... Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优. 展开更多
关键词 nutch 网页更新预测 基于密度聚类算法 泊松过程 分布式编程
下载PDF
基于Lucene和Nutch的林业垂直搜索引擎的研建 被引量:7
19
作者 申晋 《农业网络信息》 2008年第4期16-18,26,共4页
本文描述了一个基于Lucene和Nutch实现的林业垂直搜索引擎,给出了系统框架,其可以为林业用户提供专业的资源检索服务。
关键词 LUCENE nutch 搜索引擎 垂直搜索
下载PDF
基于Nutch的搜索引擎的研究 被引量:16
20
作者 胡涛 路红英 《计算机时代》 2007年第1期57-59,共3页
Nutch是一个开放源代码的Web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代的商业搜索引擎工作原理一样,即网页搜集、预处理(建立索引)和查询服务。由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平。我们... Nutch是一个开放源代码的Web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代的商业搜索引擎工作原理一样,即网页搜集、预处理(建立索引)和查询服务。由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平。我们可以利用Nutch并结合中文分词技术来构建自己的中文搜索引擎。 展开更多
关键词 nutch LUCENE 中文分词 评分机制
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部