基于MapReduce的大规模文本聚类并行化被引量：9

Parallel clustering of very large document datasets with MapReduce

导出

摘要建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性. To develop fast and efficient methods to cluster mass document data is one of the hot issues of current data mining research and applications. In order to ensure the clustering result and simultaneously improve the clustering efficiency, a document clustering algorithm was proposed based on searching a document pair with minimum similarity for each other and its distributed parallel computing models were provided. Firstly a document similarity measure was presented using a vector space model （VSM）; then bisecting clustering was raised combining the bisecting K-means and the proposed initial cluster center selection approach to find the optimized cluster centroids by once partitioning; finally a distributed parallel document clustering model was designed for cloud computing based on MapReduce framework. Experiments on Hadoop platform, using real document datasets, showed the obvious efficiency advantages of the novel document clustering algorithm compared to the original bisecting K-means with an equivalent clustering result, and the scalability of parallel clustering with different data sizes and different computation node numbers was also evaluated.

作者武森冯小东杨杰张晓楠

机构地区北京科技大学东凌经济管理学院

出处《北京科技大学学报》 EI CAS CSCD 北大核心 2014年第10期1411-1419,共9页 Journal of University of Science and Technology Beijing

基金国家自然科学基金资助项目(71271027) 高等学校博士学科点专项科研基金资助项目(20120006110037) 中央高校基本科研业务费专项资金资助项目(FRF-TP-10--006B)

关键词云计算文本聚类相似度 cloud computing documents clustering similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献28

1管仁初,裴志利,时小虎,杨晨,梁艳春.权吸引子传播算法及其在文本聚类中的应用[J].计算机研究与发展,2010,47(10):1733-1740. 被引量：10
2Jeffrey D, Sanjay G. MapReduce: simplified data processing onlarge clusters // Proceedings of the 6th Symposium on Operating Systems Design. San Francisco, 2004 : 137.
3姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50
4Zhang X D, Zhou X H, Hu X H. Semantic smoothing for model- based document clustering//Proceedings of the Sixth International Conference on Data Mining. Washington: IEEE Computer Society, 2006:1193.
5Bharathi G, Venkatesan D. Study of ontology or thesaurus based document clustering and information retrieval. J TJeor Appl Inf Technol, 2012, 40(1) : 55.
6Ma J, Xu W, Sun Y, et al. An ontology-based text-mining method to cluster proposals for research project selection. IEEE Trans Syst Man Cybern Part A, 2012, 42(3) : 784.
7史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
8Aswani Kumar C, Radvansky M, Annapurna J. Analysis of a vec- tor space model, latent semantic indexing and formal concept anal- ysis for information retrieval. Cybern lnf Technol, 2012, 12( 1 ) : 34.
9吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
10Hammouda K M, Kamel M S. Efficient phrase-based document indexing for web document clustering. 1EEE Trans Knowl Data Eng, 2004, 16(10) : 1279.

二级参考文献90

1郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
4黄建鹏,陆立强.一种新的相似度标准及其相关的聚类算法[J].复旦学报（自然科学版）,2006,45(2):177-184. 被引量：4
5罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
6史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
7SOMAN K P.数据挖掘基础教程[M].范明,牛常勇,译.北京:机械工业出版社,2009.
8Frey B J,Dueck D.Clustering by passing messages between data points[J].Science,2007,315:972-976.
9Jiang Wu,Ding Fei,Xiang Qiaoliang.An Affinity Propagation Based Method for Vector Quantization[EB/OL].(2007-10-11)[2008-01-21].http://arxiv.org/abs/0710.2037v2.
10Frey B J,Dueck D.Non-metric affinity propagation for unsupervised image categorization[C]//Proc of IEEE 11th Int Conf on Computer Vision.Piscataway,NJ:IEEE,2007.

共引文献96

1姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
2吴星玮,饶培伦.文本挖掘中运用自组织特征映射算法分析中国人类工效学研究状况[J].人类工效学,2007,13(1):17-20. 被引量：3
3史庆伟,赵政,鲍虎.基于条件随机域的Web信息抽取[J].辽宁工程技术大学学报（自然科学版）,2007,26(4):570-572. 被引量：2
4雷艺学,曾志民,田洪现.IEEE 802.16e协议调度服务性能模拟研究[J].辽宁工程技术大学学报（自然科学版）,2007,26(5):744-747.
5史庆伟,赵政,鲍虎.基于全置信度关联分析的web层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2007,26(6):892-894. 被引量：2
6郭建永,蔡勇,甄艳霞.新相似性度量在文档模糊聚类中的应用研究[J].计算机工程与应用,2009,45(13):160-162. 被引量：1
7赵晖,林成龙,唐朝京.基于视频三音子的双模态语料自动选取算法[J].计算机工程,2009,35(17):1-3. 被引量：2
8许伟佳.基于向量空间模型的文档聚类研究[J].电脑知识与技术,2009,5(9):7281-7283. 被引量：3
9李燕,张月国,李生红.基于蚁群算法的文本分类和聚类[J].信息安全与通信保密,2009,31(10):57-58. 被引量：2
10吴景岚.一种基于GRASP的文档聚类算法[J].闽江学院学报,2009,30(5):62-65.

同被引文献71

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
4郑伟,季铎,蔡东风,王爽.基于文本最小相似度的中心选取方法[J].广西师范大学学报（自然科学版）,2008,26(3):198-201. 被引量：3
5张星联,唐晓纯.我国食品安全预警数据库系统的建设与实现[J].食品科技,2008,33(12):250-254. 被引量：5
6施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
7吴云红,朱亮,初炜,孔祥金.食品监管改革的关键——基于互联网的动态第三方数据库[J].食品工业科技,2009,30(9):272-274. 被引量：8
8张雪伟,王焱.基于Sigmoid函数参数调整的双隐层BP神经网络的板形预测[J].化工自动化及仪表,2010,37(4):42-44. 被引量：6
9朱连江,马炳先,赵学泉.基于轮廓系数的聚类有效性分析[J].计算机应用,2010,30(12):139-141. 被引量：117
10张丽娜,李垠含,张文顺.脉诊仪在实验教学中存在的问题及改进对策[J].辽宁中医药大学学报,2011,13(6):271-272. 被引量：2

引证文献9

1李兰英,董义明,孔银,周秋丽.改进K-means算法的MapReduce并行化研究[J].哈尔滨理工大学学报,2016,21(1):31-35. 被引量：7
2刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3
3刘业峰.基于BS结构的B2C电子商务管理系统设计与开发[J].沈阳工程学院学报（自然科学版）,2017,13(1):59-65. 被引量：6
4李莉.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].网络安全技术与应用,2017(12):46-47. 被引量：2
5刘睿伦,叶文豪,高瑞卿,唐梦嘉,王东波.基于大数据岗位需求的文本聚类研究[J].数据分析与知识发现,2017,1(12):32-40. 被引量：20
6盛雅兰,王珍,佘侃侃.基于Hadoop环境BP改进算法的脉象识别应用研究[J].中国中医药信息杂志,2018,25(3):102-106. 被引量：4
7尹铁源,张瑞琴.基于MapReduce网页文本并行化计算的研究[J].信息通信,2018,31(4):32-34.
8沈思,梁晓静.基于word2vec与K-means算法食品安全事件自动聚类研究[J].信息通信,2018,31(11):8-10. 被引量：4
9董义明,王鹏达,李鹏,仝茵.改进遗传算法的MapReduce并行化研究[J].电脑知识与技术,2019,15(4):151-152. 被引量：1

二级引证文献47

1姜婷婷,权明喆,黄杰.国内用户体验设计人才需求研究——基于招聘信息的分析[J].工业设计研究,2019(1):55-64. 被引量：1
2高园,罗悦,陈菊,冯杰,彭安杰,刘思涵.基于人工神经网络技术构建中医思维模型的研究[J].辽宁中医杂志,2022,49(7):48-51.
3郭晨晨,朱红康.基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进[J].黑龙江大学工程学报,2016,7(3):87-91. 被引量：3
4苏亚涛.高校信息化建设中共享数据同步机制与实现[J].沈阳工程学院学报（自然科学版）,2018,14(2):166-170. 被引量：1
5刘畅.基于Web文本挖掘的数据分析岗位需求研究[J].中国管理信息化,2018,21(10):76-79. 被引量：3
6阴爱英,吴运兵,朱敏琛,张莹.基于MapReduce框架下K-means的改进算法[J].计算机应用研究,2018,35(8):2295-2298. 被引量：11
7李铁钢,邱绵振.基于VISI的模具标准件库构建技术研究[J].沈阳工程学院学报（自然科学版）,2018,14(3):274-278.
8石磊,巴阳,陶永才,卫琳.基于MapReduce的改进CHI文本特征选择机制[J].小型微型计算机系统,2018,39(8):1799-1804. 被引量：4
9尹宝勇,吴斌,刘建生.一种改进的K-means算法[J].江西理工大学学报,2018,39(5):97-102. 被引量：6
10孙瑜,莫凌飞.基于模糊匹配的招聘网页技能术语抽取研究[J].信息技术与信息化,2018(11):171-177. 被引量：1

1逄华,王龙,王剑辉.一种基于移动Agent的分布式并行计算模型[J].计算机技术与发展,2011,21(2):70-72. 被引量：3
2郑伟,季铎,蔡东风,王爽.基于文本最小相似度的中心选取方法[J].广西师范大学学报（自然科学版）,2008,26(3):198-201. 被引量：3
3张红,王晓明,曹洁,马彦宏,郭义戎,王慜.Hadoop云平台MapReduce模型优化研究[J].计算机工程与应用,2016,52(22):22-25. 被引量：10
4钱雪忠,孙华峰,贺庆和.关于Web服务动态组合的约束性满足的研究[J].沈阳工业大学学报,2007,29(3):326-329.
5刘丹丹,陈俊,梁锋,范小朋.云计算异构环境下Hadoop性能分析[J].集成技术,2012,1(4):46-51. 被引量：8
6施磊磊,施化吉,束长波,宋玉平.基于Hadoop和HBase的分布式索引模型的研究[J].信息技术,2015,39(6):109-111. 被引量：5
7余胜生,文元桥,周敬利.隧道算法的分布式并行计算模型[J].数值计算与计算机应用,2006,27(4):299-306. 被引量：2
8黄承宁.大数据和云计算架构应用技术研究[J].福建电脑,2017,33(2):16-17. 被引量：6
9段新涛,李伟超.基于图像似然度的人脸检测[J].福建电脑,2006,22(4):124-125.
10黎银环,张剑.改进的K-means算法在入侵检测中的应用[J].计算机技术与发展,2013,23(1):165-168. 被引量：3

北京科技大学学报

2014年第10期

浏览历史

内容加载中请稍等...

基于MapReduce的大规模文本聚类并行化被引量：9

参考文献28

二级参考文献90

共引文献96

同被引文献71

引证文献9

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的大规模文本聚类并行化 被引量：9

参考文献28

二级参考文献90

共引文献96

同被引文献71

引证文献9

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的大规模文本聚类并行化被引量：9