PDMiner:基于云计算的并行分布式数据挖掘工具平台被引量：27

PDMiner:a cloud computing based parallel and distributed data mining toolkit platform

导出

摘要随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法. With the development of information technology and internet, various types of information are increasing explosively. It is still a challenge to discover knowledge from massive information. As a pivotal technology to obtain knowledge, data mining has attracted a large amount of research interest for several decades; however, when dealing with large-scale data, most of previous works are still not as efficient as expected. Therefore, the extension of algorithms to deal with large-scale data and the improvement of executing efficiency have become important issues in data mining. Cloud computing based data mining has become a hot topic recently. In this paper, we develop a parallel and distributed data mining toolkit platform （PDMiner） based on large-scale data processing platform--Hadoop. In PDMiner, we propose to implement various data mining operations, such as data preprocessing, association rule analysis, classification and clustering in a parallel manner. The experimental results show that these parallel algorithms 1） can tackle large-scale data set, up to terabyte; 2） are very high efficiency, since they have good speedup; 3） are easily extended to execute in a cluster of commodity machines, which can make full use of computing resource; 4） are efficient for practical data mining. Additionally, we develop knowledge flow subsystem, which can facilitate the user to define data mining task in PDMiner. Furthermore, we can conveniently integrate new parallel algorithms into PDMiner through flexible interface.

作者何清庄福振曾立赵卫中谭庆

机构地区中国科学院智能信息处理重点实验室中国科学院大学

出处《中国科学：信息科学》 CSCD 2014年第7期871-885,共15页 Scientia Sinica(Informationis)

基金国家自然科学基金(批准号:61175052 61203297 61035003) 国家高技术研究发展计划(863)(批准号:2014AA012205 2013AA01A606 2012AA011003)资助项目

关键词云计算并行算法分布式数据挖掘大数据 cloud computing, parallel algorithms, distributed, data mining, big data

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Han J W, Kamber M, Pei J. Data Mining: Concepts and Techniques. 3rd ed. San Francisco: Morgan Kaufmann, 2011.
2Luo P, Lu K, Huang R, et al. A heterogeneous computing system for data mining workflows in multi-agent environ- ments. Expert Syst, 2006, 23:258-272.
3Zhuang F Z, He Q, Shi Z Z. Multi-agent based on automatic evaluation system for classification algorithm. In: Proceedings of International Conference on Information Automation, Zhangjiajie, 2008. 264-269.
4Hameenanttila T, Guan X L, Carothers J D, et al. The flexible hypercube: a new fault-tolerant architecture for parallel computing. J Parallel Distr Com, 1996, 37:213-220.
5Goudreau M W, Lang K, Rao S B, et al. Portable and efficient parallel computing using the BSP model. IEEE Trans Comput, 1999, 48:670-689.
6Chu C T, Kim S K, Lin Y A, et al. Map-reduce for machine learning on multicore. In: Proceedings of Advances in Neural Information Processing Systems 19, Vancouver, 2006. 281-288.
7Borthakur D. The hadoop distributed file system: architecture and design. Hadoop Project Website, 2007, 11:21.
8Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Commun ACM, 2008, 51:107-113.
9Luo P,Lu K, Shi Z Z, et al. Distributed data mining in grid computing environments. Future Gener Comp Sys, 2007, 23:84-91.
10Hall M, Frank E, Holmes G, et al. The weka data mining software: an update. ACM SIGKDD Explor Newsl, 2009, 11:10-18.

二级参考文献10

1胡学刚张东艳胡春玲等.一种新的基于粗糙集的决策树构造算法[J].计算机科学,2005,32(8):7-8,50.
2曾黄麟.智能计算[M].重庆:重庆大学出版社,2004..
3[美]Mitchell T M.机器学习[M].曾华军,张银奎,译.北京:机械工业出版社,2003.
4Breiman L,Freidman J H,Olsen R A,et al.Classification and Regression Trees[M].Wadsworth International Group,CRC,1984.
5Quinlan J R.Construction Decision Tree in C4.5:Programs of Machine Learning[M].Morgan Kaufman Publishers,1993.
6Kamal Ali.On Explaining Degree of Error Reduction due to Combining Multiple Decision Trees.IBM Almaden Recearcher Centre,CA,1996.
7Kamal Ali.On Explaining Degree of Error Reduction due to Combining Multiple Decision Trees.IBM Almaden Recearcher Centre,CA,1996.
8Mastroianna C,Tailia D,Trunfio P.Managing Heterogeneous Resource in Data Mining Application on Grid Using XML-based Metadata.In Proceedings of IPDPS2003,IEEE Computer Society Press,2003.
9Han J W,Kamber M.数据挖掘[M].范明,孟小峰,译.北京:机械工业出版社,2001.
10Lim T J,Loh W Y,Shih.A Comparison and Prediction Accuracy,Complexity,and Training Time of Thirty-three Old and New Classification Algorithms,Machine Learning,2000,40(3):208-228.

共引文献3

1张永福,赵洪章,穆扬.因子分析在学生成绩综合评价中的应用[J].现代电子技术,2008,31(6):137-140. 被引量：4
2何清,庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013,19(4):32-38. 被引量：22
3何清,敖翔,庄福振,罗平.一种基于Hadoop的大数据挖掘云服务及应用[J].信息通信技术,2015,9(6):42-49. 被引量：13

同被引文献224

1胡雄伟,张宝林,李抵飞.大数据研究与应用综述(上)[J].标准科学,2013(9):29-34. 被引量：44
2李兴斌,张建国,吴立伟,郝化武.抽油机调平衡节能技术在子北采油厂的应用[J].中国石油和化工标准与质量,2012,32(10). 被引量：3
3周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：31
4江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
5李国杰.信息科学技术的长期发展趋势和我国的战略取向[J].中国科学：信息科学,2010,40(1):128-138. 被引量：35
6滕吉文,张中杰,王爱武,魏计春,吉连祥.弹性介质各向异性研究沿革、现状与问题[J].地球物理学进展,1992,7(4):14-28. 被引量：38
7邓继新,史謌,刘瑞珣,俞军.泥岩、页岩声速各向异性及其影响因素分析[J].地球物理学报,2004,47(5):862-868. 被引量：76
8邬亦炯.游梁式抽油机曲柄轴扭矩计算公式剖析[J].石油机械,1994,22(5):35-42. 被引量：11
9曼丽春,朱宏,杨全胜.Web数据挖掘研究与探讨[J].现代电子技术,2005,28(8):3-6. 被引量：29
10滕吉文,尹周勋,刘宏兵,张中杰,胡家富,孙克忠,魏计春.青藏高原岩石层三维和二维结构与大陆动力学[J].地球物理学报,1994,37(A02):117-130. 被引量：25

引证文献27

1李学龙,龚海刚.大数据系统综述[J].中国科学：信息科学,2015,45(1):1-44. 被引量：449
2王永.基于云计算的数据挖掘平台架构及其关键技术探讨[J].中国新通信,2015,17(10):69-69. 被引量：7
3丁伟,万定生,樊龙.并行数据挖掘方法在水利普查成果分析中的应用[J].计算机与现代化,2015(10):107-111.
4何清,敖翔,庄福振,罗平.一种基于Hadoop的大数据挖掘云服务及应用[J].信息通信技术,2015,9(6):42-49. 被引量：13
5李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：23
6林媛.非结构化网络中有价值信息数据挖掘研究[J].计算机仿真,2017,34(2):414-417. 被引量：22
7陈小莉.基于大数据的计算机数据挖掘技术在档案管理系统中的研究应用[J].激光杂志,2017,38(2):142-145. 被引量：49
8刘全飞,彭凌云.分布式环境下光学卫星影像的数据挖掘[J].激光杂志,2017,38(3):110-113.
9常成.PDMiner平台的主动配电网安全监测系统[J].哈尔滨理工大学学报,2017,22(2):61-66. 被引量：6
10卜尧,吴斌,陈玉峰,白德盟.BDAP——一个基于Spark的数据挖掘工具平台[J].中国科学技术大学学报,2017,47(4):358-368. 被引量：9

二级引证文献639

1周学兵.精准资助视域中高校资助育人工作机制分析[J].作家天地,2020(23):84-84.
2师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：9
3王赟,文鹏飞,李宗杰,刘佳,李孟泽.多分量油气地震勘探技术急需解决的几个问题[J].石油地球物理勘探,2020(6):1395-1406. 被引量：7
4蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：79
5赵毅宇.检察监督智能化的发展隐忧及应对逻辑[J].法制与社会发展,2023,29(2):178-194. 被引量：7
6赖倩.基于大数据技术的档案数据挖掘对策研究[J].企业改革与管理,2021(9):19-20. 被引量：2
7王墨晗,孟雪.患者流分析在医疗建筑设计研究中的应用与启示——基于2010-2020的国际文献回顾[J].建筑学报,2021(S02):29-35.
8饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42.
9李世佳.网络平台的市场支配地位认定——以数据相关市场为中心[J].研究生法学,2020(2):130-144.
10王呈玮.大数据背景下企业财务决策转型研究[J].广西质量监督导报,2019,0(11):197-198. 被引量：2

1何清,庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013,19(4):32-38. 被引量：22
2李灏,叶柏龙,邓军.工作流技术在协同办公系统中的应用研究[J].微计算机信息,2010,26(3):176-177. 被引量：10
3赵喜庆,周飞飞,许宗燕.基于J2EE的电子院务系统——工作流子系统的探索与设计[J].中国电子商务,2012(16):59-59.
4美研制出最先进的量子计算机[J].中学物理教学参考,2000,29(10):39-39.
5闫娟,穆晓霞.Hadoop加速比性能模型研究[J].河南师范大学学报（自然科学版）,2014,42(2):152-157. 被引量：3
6邵津生,管磊.Hadoop加速比性能模型研究[J].保密科学技术,2014,0(3):55-60.
7范学英.可定制工作流技术在档案管理系统中的研究与应用[J].电脑知识与技术,2012,8(5):3063-3067. 被引量：1
8苏建东.国际观与本土化相得益彰——访美国宝获利商用机器有限公司副总经理满冲[J].信息与电脑,2007(8):14-16.
9高见文,薛行贵,罗杰,姜源,吴启武.基于迭代式MapReducede的海量数据并行聚类算法研究[J].中国科技论文,2016,11(14):1626-1631. 被引量：6
10IBM研发出新的处理器堆栈技术[J].大众科技,2011(1):11-11.

中国科学：信息科学

2014年第7期

浏览历史

内容加载中请稍等...

PDMiner:基于云计算的并行分布式数据挖掘工具平台被引量：27

参考文献16

二级参考文献10

共引文献3

同被引文献224

引证文献27

二级引证文献639

相关作者

相关机构

相关主题

浏览历史

PDMiner:基于云计算的并行分布式数据挖掘工具平台 被引量：27

参考文献16

二级参考文献10

共引文献3

同被引文献224

引证文献27

二级引证文献639

相关作者

相关机构

相关主题

浏览历史

PDMiner:基于云计算的并行分布式数据挖掘工具平台被引量：27