期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
基于Hadoop和HBase的Nutch网页排序算法研究
被引量:
1
下载PDF
职称材料
导出
摘要
针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。
作者
施磊磊
施化吉
宋玉平
束长波
机构地区
江苏大学计算机科学与通信工程学院
出处
《软件导刊》
2014年第10期53-55,共3页
Software Guide
关键词
HADOOP集群
MAPREDUCE
NUTCH
HBASE
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
引文网络
相关文献
节点文献
二级参考文献
0
参考文献
3
共引文献
0
同被引文献
4
引证文献
1
二级引证文献
0
参考文献
3
1
MANBER U,SMITH M,GOPAL B. WebGlimpse:combining browsing and searching in Usenix TC[EB/OL].http://web-glimpse.net/,.
2
MORGAN E L.查看详情.
3
RABINOWITZ J. Indexing and retrieving data with Perl and SWISH-EinProc of the Usenix technical conference[EB/OL].ht-tp://www.swish-e.org/,.
同被引文献
4
1
罗武,方逵,朱兴辉.
网络搜索引擎排序算法研究进展[J]
.湖南农业科学,2010(4):137-140.
被引量:7
2
刘发升,张菊琴.
结合PCM聚类算法的网页排序[J]
.计算机工程与科学,2013,35(4):144-149.
被引量:2
3
陶林,谌超,强保华,王勇.
基于Hadoop的Nutch网页排序算法研究与实现[J]
.桂林电子科技大学学报,2013,33(2):139-143.
被引量:4
4
胡维华,曹奇峰.
基于Nutch的页面排序算法研究[J]
.杭州电子科技大学学报(自然科学版),2013,33(6):74-77.
被引量:1
引证文献
1
1
徐再林,陆明昕.
基于Nutch的网页排序算法研究[J]
.电子世界,2016,0(6):91-92.
1
曹恬,周丽,张国煊.
一种基于词共现的文本相似度计算[J]
.计算机工程与科学,2007,29(3):52-53.
被引量:14
2
施磊磊,施化吉,宋玉平,束长波.
基于Hadoop的PageRank算法改进[J]
.软件导刊,2015,14(1):64-66.
3
王琼,吕晓猛,蒋玉峰,陆刚.
带聚类处理的元搜索引擎的设计与实现[J]
.常熟理工学院学报,2010,24(2):99-104.
4
张文,唐锡晋,吉田武稔.
AIS—基于文本挖掘的增强型Web信息处理技术[J]
.系统工程理论与实践,2010,30(1):96-104.
被引量:3
5
李志云,徐士进,武港山,董少春.
协同标注研究及其在数字博物馆中的应用[J]
.计算机工程,2008,34(6):221-223.
被引量:4
6
王权,施韶亭.
基于PHP的统一检索系统的设计与实现[J]
.兰州理工大学学报,2008,34(1):91-94.
被引量:10
7
王超,宋文爱,富丽贞,张晶亮.
电子病历的检索和结果多样化算法研究[J]
.科学技术与工程,2016,16(36):190-195.
被引量:2
8
张桂华,李艳琪,和艳会.
自动化网络化环境下的图书馆书目数据质量控制[J]
.农业网络信息,2007(12):97-99.
被引量:1
软件导刊
2014年 第10期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部