基于MapReduce架构的文档相似度计算方法被引量：4

下载PDF

导出

摘要 MapReduce是Google开发的在超大集群下进行海量数据运算的一种分布式编程模式。Google利用MapReduce编程模式,其搜索业务取得了巨大的成功。TF-IDF是计算词条权值的一种方法,常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级,但是计算量特别大。本文将介绍使用MapReduce架构来解决TF-IDF实现中计算量大、速度慢的问题。

作者洪毅虹

机构地区武汉大学计算机学院

出处《网络与信息》 2010年第9期36-37,共2页 Network & Information

关键词 TF-IDF 文档相似度海量数据 MAPREDUCE

分类号 TP393.03 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Salton,G.& Buckley,C. Term-weighting approach es in automatic text retrieval.Information Processing & Management, 1988,24(5):513-523.
2Jeffrey Dean,Sanjay Ghemawat. MapReduce:Sim plified Data Processing on Large Clusters.OSDI, 2004.
3Jimmy Lin,Chris Dyer.Data-Intensive Text Proces sing with MapReduce.2009.

同被引文献38

1王斌,许洪波.大规模内容计算[J].信息网络安全,2005(3):45-46. 被引量：4
2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
3田润涛,谢培山.色谱指纹图谱相似度评价方法的规范化研究(一)[J].中药新药与临床药理,2006,17(1):40-42. 被引量：47
4索红光,梁玉环,刘玉树.基于时间戳的多文档自动文摘[J].计算机工程,2007,33(16):164-165. 被引量：3
5Luhn H P. A business intelligence system [J]. IBM Journal of Research and Development, 1958, 2(04):314 - 319.
6Edward M Housman. Survey of current systems for selective dissemination of information. Technical Report SIG P SDI [R]. American Society for Information Science Special Interest Group on SDI, 1969.
7Peter J. Denning. Electronic junk [J]. Communications of the ACM, 1982, 25 (03) :163-165.
8Thomas W Malone, Kenneth R Grant, Franklyn A Turbak, et al. Intelligent information sharing systems [J]. Communications Of the ACM, 1987, 28 (06):390-402.
9Text REtrieval Conference(TREC)[EB/OL]. http://trec.nist.gov/, 2011-01-01.
10Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[R]. OSDI, 2004.

引证文献4

1赵华茗.分布式环境下的文档相似度研究与实现[J].现代图书情报技术,2011(7):14-20. 被引量：6
2李虎,邹鹏,贾焰,周斌.一种基于MapReduce的分布式文本数据过滤模型研究[J].信息网络安全,2011(9):91-93.
3胡琪,邹细勇.基于MapReduce的多文档自动文摘的设计与实现[J].计算机工程与应用,2011,47(35):67-70.
4亢丽芸,王效岳,白如江.MapReduce原理及其在自然语言处理中的应用研究[J].情报科学,2014,32(5):120-126. 被引量：2

二级引证文献8

1滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
2李金忠,汤鹏杰,夏洁武,谭云兰.迭代式MapReduce研究进展[J].计算机工程与应用,2015,51(12):123-132. 被引量：2
3陈墨,程刚,王小娟.基于互联网海量数据的热点分析系统研究[J].互联网天地,2015(9):30-35. 被引量：2
4张新香.情境感知和兴趣适应的农业信息推荐模型[J].计算机应用研究,2016,33(5):1315-1318. 被引量：3
5张海腾,翟洁,冷春霞.电子作业相似性检测技术的研究与实现[J].电子设计工程,2017,25(19):43-45. 被引量：2
6李慧,闫琰.基于组合模型的农业信息情景感知推荐系统研究[J].江苏农业科学,2017,45(17):209-214. 被引量：2
7陆泉,张良韬.处理流程视角下的大数据技术发展现状与趋势[J].信息资源管理学报,2017,7(4):17-28. 被引量：9
8李洪民.自然语言处理中的技术评测以及相关英语专业考试分析[J].电脑知识与技术（过刊）,2017,23(10X):166-167. 被引量：1

1于金良,朱志祥,李聪颖.Hadoop MapReduce新旧架构的对比研究综述[J].计算机与数字工程,2017,45(1):83-87. 被引量：8
2郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程,2007,33(22):83-85. 被引量：7
3金晶,王妍,李昕,陈山枝.MapReduce架构的多控制节点改进[J].北京邮电大学学报,2012,35(4):89-93. 被引量：2
4丁光华,周继鹏,周敏.基于MapReduce的并行贝叶斯分类算法的设计与实现[J].微计算机信息,2010,26(9):190-191. 被引量：5
5赖向阳,宫秀军,韩来明.一种MapReduce架构下基于遗传算法的K-Medoids聚类[J].计算机科学,2017,44(3):23-26. 被引量：18
6郑艳萍,葛潮.基于Lucene的搜索引擎系统的开发与应用[J].河北工业科技,2010,27(5):348-350.
7王旭仁,姚叶鹏,冉春风,何发镁.一种并行LDA主题模型建立方法研究[J].北京理工大学学报,2013,33(6):590-593. 被引量：12
8周文晖,程鹤群,孟影,章清锋.基于MapReduce的图像序列可视外壳绘制方法[J].杭州电子科技大学学报（自然科学版）,2015,35(6):55-59.
9师金钢,郑艳,孙焕良,栾方军.云环境中海量数据的并行分组密码体制研究[J].计算机科学与探索,2014,8(2):161-170. 被引量：3
10解慧娟.MapReduce在Hadoop平台下作业调度算法的改进和实现[J].电脑知识与技术（过刊）,2014,20(5X):3206-3208. 被引量：1

网络与信息

2010年第9期

浏览历史

内容加载中请稍等...

基于MapReduce架构的文档相似度计算方法被引量：4

参考文献3

同被引文献38

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce架构的文档相似度计算方法 被引量：4

参考文献3

同被引文献38

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce架构的文档相似度计算方法被引量：4