期刊文献+

基于MapReduce架构的文档相似度计算方法 被引量:4

下载PDF
导出
摘要 MapReduce是Google开发的在超大集群下进行海量数据运算的一种分布式编程模式。Google利用MapReduce编程模式,其搜索业务取得了巨大的成功。TF-IDF是计算词条权值的一种方法,常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级,但是计算量特别大。本文将介绍使用MapReduce架构来解决TF-IDF实现中计算量大、速度慢的问题。
作者 洪毅虹
出处 《网络与信息》 2010年第9期36-37,共2页 Network & Information
  • 相关文献

参考文献3

  • 1Salton,G.& Buckley,C. Term-weighting approach es in automatic text retrieval.Information Processing & Management, 1988,24(5):513-523.
  • 2Jeffrey Dean,Sanjay Ghemawat. MapReduce:Sim plified Data Processing on Large Clusters.OSDI, 2004.
  • 3Jimmy Lin,Chris Dyer.Data-Intensive Text Proces sing with MapReduce.2009.

同被引文献38

  • 1王斌,许洪波.大规模内容计算[J].信息网络安全,2005(3):45-46. 被引量:4
  • 2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量:51
  • 3田润涛,谢培山.色谱指纹图谱相似度评价方法的规范化研究(一)[J].中药新药与临床药理,2006,17(1):40-42. 被引量:47
  • 4索红光,梁玉环,刘玉树.基于时间戳的多文档自动文摘[J].计算机工程,2007,33(16):164-165. 被引量:3
  • 5Luhn H P. A business intelligence system [J]. IBM Journal of Research and Development, 1958, 2(04):314 - 319.
  • 6Edward M Housman. Survey of current systems for selective dissemination of information. Technical Report SIG P SDI [R]. American Society for Information Science Special Interest Group on SDI, 1969.
  • 7Peter J. Denning. Electronic junk [J]. Communications of the ACM, 1982, 25 (03) :163-165.
  • 8Thomas W Malone, Kenneth R Grant, Franklyn A Turbak, et al. Intelligent information sharing systems [J]. Communications Of the ACM, 1987, 28 (06):390-402.
  • 9Text REtrieval Conference(TREC)[EB/OL]. http://trec.nist.gov/, 2011-01-01.
  • 10Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[R]. OSDI, 2004.

引证文献4

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部