期刊文献+

基于Hadoop和HBase的Nutch网页排序算法研究 被引量:1

下载PDF
导出
摘要 针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。
出处 《软件导刊》 2014年第10期53-55,共3页 Software Guide
  • 相关文献

参考文献3

  • 1MANBER U,SMITH M,GOPAL B. WebGlimpse:combining browsing and searching in Usenix TC[EB/OL].http://web-glimpse.net/,.
  • 2MORGAN E L.查看详情.
  • 3RABINOWITZ J. Indexing and retrieving data with Perl and SWISH-EinProc of the Usenix technical conference[EB/OL].ht-tp://www.swish-e.org/,.

同被引文献4

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部