MapReduce框架下并行知识约简算法模型研究被引量：17

Parallel Algorithm Model for Knowledge Reduction Using MapReduce

下载PDF

导出

摘要面向大规模数据进行知识约简是近年来粗糙集理论研究热点。经典的知识约简算法是一次性将小数据集装入单机主存中进行约简,无法处理海量数据。深入剖析了知识约简算法中的可并行性;设计并实现了数据和任务同时并行的Map和Reduce函数,用于计算不同候选属性集导出的等价类和属性重要性;构建了一种MapReduce框架下并行知识约简算法模型,用于计算基于正区域、基于差别矩阵或基于信息熵的知识约简算法的一个约简。在Hadoop平台上进行了相关实验,实验结果表明,该并行知识约简算法模型可以高效地处理海量数据集。 Knowledge reduction for massive datasets has attracted many research interests in rough set theory. Classical knowledge reduction algorithms assume that all datasets can be loaded into the main memory of a single machine, which are infeasible for large-scale data. Firstly, this paper analyzes the parallel computations among classical knowledge reduction algorithms. Then, in order to compute the equivalence classes and attribute significance on different candidate attribute sets, it designs and implements the Map and Reduce functions using data and task parallelism. Finally, it constructs the parallel algorithm framework model for knowledge reduction using MapReduce, which can be used to compute a reduct for the algorithms based on positive region, discernibility matrix or information entropy. The experimental results demonstrate that the proposed parallel knowledge reduction algorithms can efficiently process massive datasets on Hadoop platform.

作者钱进苗夺谦张泽华张志飞

机构地区同济大学计算机科学与技术系江苏理工学院计算机工程学院同济大学嵌入式系统与服务计算教育部重点实验室

出处《计算机科学与探索》 CSCD 2013年第1期35-45,共11页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金Nos.60970061 61075056 61103067 中央高校基本科研业务费专项资金~~

关键词 MAPREDUCE 粗糙集知识约简数据并行任务并行 MapReduce rough set knowledge reduction data parallel task parallel

分类号 TP393.03 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766. 被引量：594
2苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684. 被引量：507
3徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
4钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12):2332-2343. 被引量：42
5王立宏,吴耿锋.基于并行协同进化的属性约简[J].计算机学报,2003,26(5):630-635. 被引量：22

二级参考文献33

1叶东毅,陈昭炯.一个新的二进制可辨识矩阵及其核的计算[J].小型微型计算机系统,2004,25(6):965-967. 被引量：49
2徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
3王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
4杨明.一种基于改进差别矩阵的属性约简增量式更新算法[J].计算机学报,2007,30(5):815-822. 被引量：112
5苗夺谦.Rough Set理论及其在机器学习中的应用研究[博士学位论文].北京:中国科学院自动化研究所,1997..
6王国胤.Rough集理论和知识获取[M].西安:西安交通大学出版社,2001..
7胡峰,王国胤.属性序下的快速约简算法[J].计算机学报,2007,30(8):1429-1435. 被引量：49
8王珏，J Comput Sci Technol，1998年，13卷，2期，189页
9Miao Duoqian，IEEE ICIPS’97，1997年，1155页
10苗夺谦，博士学位论文，1997年

共引文献1151

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：11
2景运革,景罗希,王宝丽,程妮.属性值和属性变化的增量属性约简算法[J].山东大学学报（理学版）,2020,55(1):62-68. 被引量：7
3危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：4
4王思.应用属性约简算法实现运动员伤病影响因素评估的研究[J].电子测量技术,2020,43(11):10-15.
5唐鹏飞.基于近似条件熵的集值决策表属性约简算法[J].智能计算机与应用,2021,11(10):20-25. 被引量：2
6刘城霞,朱敏玲,刘玮琪.基于互信息的属性约简算法研究与实现[J].北京信息科技大学学报（自然科学版）,2020,35(1):38-42. 被引量：7
7唐洪浪.基于决策强度的一种属性约简算法[J].湛江师范学院学报,2007,28(6):65-69.
8宋岚,黄兆华,王洪.基于Rough熵的决策表约简算法研究[J].华东交通大学学报,2006,23(4):93-95. 被引量：1
9庞发虎,庞振凌,杜瑞卿.粗糙集理论对湖泊生态系统健康评定指数法的评价[J].生物数学学报,2008,23(2):337-344. 被引量：4
10林秋月,陈昭炯.基于二进制可辨矩阵的属性约简启发式算法[J].福州大学学报（自然科学版）,2004,32(z1):32-35. 被引量：1

同被引文献268

1龚伟林,李德玉,王素格,程利涛.基于模糊区分矩阵的区间值信息系统属性约简[J].山西大学学报（自然科学版）,2011,34(3):381-387. 被引量：3
2张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：379
3周国亮,宋亚奇,王桂兰,朱永利.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013,28(S2):337-344. 被引量：41
4于达仁,胡清华,鲍文.融合粗糙集和模糊聚类的连续数据知识发现[J].中国电机工程学报,2004,24(6):205-210. 被引量：70
5杨涛,李龙澍.一种基于粗糙集聚类的数据约简算法[J].系统仿真学报,2004,16(10):2195-2197. 被引量：5
6张尧学.透明计算:概念、结构和示例[J].电子学报,2004,32(F12):169-174. 被引量：48
7徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
8宋笑雪,李鸿儒,张文修.集值决策信息系统的知识约简与属性特征[J].计算机科学,2006,33(7):179-181. 被引量：11
9李思源,单青.决策表技术的演变及其应用领域[J].系统工程,1996,14(6):10-14. 被引量：1
10李玉琳,高志刚,韩延玲.模糊综合评价中权值确定和合成算子选择[J].计算机工程与应用,2006,42(23):38-42. 被引量：107

引证文献17

1姜麟,米允龙,王添.大数据下不完备信息系统近似空间的并行算法[J].计算机工程与应用,2014,50(15):101-106. 被引量：4
2徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2119-2135. 被引量：22
3张烈超.粗糙集理论在网络安全管理中的挖掘与应用[J].武汉交通职业学院学报,2015,17(1):81-85.
4王永生,郑雪峰,锁延锋.一种基于信息粒度的动态属性约简求解算法[J].计算机科学,2015,42(4):213-216. 被引量：3
5米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
6宋雨,焦谱,李刚.大数据预处理中属性约简的特性保持分析[J].计算机测量与控制,2015,23(12):4191-4194. 被引量：7
7袁景凌,钟珞,杨光,陈旻骋,顾骏程,李涛.绿色数据中心不完备能耗大数据填补及分类算法研究[J].计算机学报,2015,38(12):2499-2516. 被引量：18
8常玉慧,吕萍,钱进.云计算下保持边界域划分的知识约简算法研究[J].计算机工程与应用,2015,51(24):159-164. 被引量：1
9李刚,焦谱,文福拴,宋雨,尚金成,何洋.基于偏序约简的智能电网大数据预处理方法[J].电力系统自动化,2016,40(7):98-106. 被引量：34
10曹卫东,翟盼盼,朱远知.民航收益漏洞NOSHOW规则提取[J].计算机工程与设计,2017,38(4):1093-1097. 被引量：2

二级引证文献186

1周琴.基于科技成果转化报告管理系统的研究与应用[J].新一代信息技术,2022,5(5):86-88.
2米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
3刘承良.网络大数据的现状与展望[J].中国管理信息化,2015,18(12):186-188. 被引量：7
4孙彬.计算机物流服务的约简与优势发现[J].物流技术,2015,34(13):262-265.
5丁卫平,陈森博,王杰华,管致锦.基于云计算的多层量子精英属性协同约简算法[J].四川大学学报（工程科学版）,2015,47(6):97-103. 被引量：1
6宋雨,焦谱,李刚.大数据预处理中属性约简的特性保持分析[J].计算机测量与控制,2015,23(12):4191-4194. 被引量：7
7李刚,焦谱,文福拴,宋雨,尚金成,何洋.基于偏序约简的智能电网大数据预处理方法[J].电力系统自动化,2016,40(7):98-106. 被引量：34
8任艳.微信息大数据粗糙集的近似约简[J].沈阳工业大学学报,2016,38(3):309-313. 被引量：4
9吕艳歌,朱国魂,蔡云鹏.基于Cox回归模型的高血压并发冠心病影响因素分析[J].桂林电子科技大学学报,2016,36(2):136-139. 被引量：2
10刘韵,张遥.大数据管理:概念、技术与挑战[J].数码世界,2016,0(6):16-16. 被引量：10

1王志丹.基于云计算的属性重要度约简算法研究[J].洛阳师范学院学报,2014,33(8):64-66.
2何佩佩,谢颖华.云环境下K-means算法的并行化[J].微型机与应用,2015,34(24):25-27. 被引量：1
3周国军,梁燕红,唐微.AprioriTid算法的MapReduce并行化实现[J].微型机与应用,2015,34(24):22-24.
4王志丹.云环境下基于二进制编码的Apriori改进算法[J].中原工学院学报,2014,25(6):69-71.
5王睿.基于MapReduce的并行KNN分类算法研究[J].计算机与数字工程,2013,41(11):1738-1740. 被引量：3
6邹晶晶.MapReduce数据处理模型研究[J].电子制作,2014,22(11X):66-67.
7闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21
8张依杨,向阳,蒋锐权,张波,张君瑛.朴素贝叶斯算法的MapReduce并行化分析与实现[J].计算机技术与发展,2013,23(3):23-26. 被引量：8
9袁小艳.ABC_Kmeans聚类算法的MapReduce并行化研究[J].计算机测量与控制,2016,24(1):252-254. 被引量：5
10李杨,杨宝华,李双.BP-AdaBoost分类算法的MapReduce并行化实现[J].计算机应用与软件,2014,31(8):261-264. 被引量：1

计算机科学与探索

2013年第1期

浏览历史

内容加载中请稍等...

MapReduce框架下并行知识约简算法模型研究被引量：17

参考文献5

二级参考文献33

共引文献1151

同被引文献268

引证文献17

二级引证文献186

相关作者

相关机构

相关主题

浏览历史

MapReduce框架下并行知识约简算法模型研究 被引量：17

参考文献5

二级参考文献33

共引文献1151

同被引文献268

引证文献17

二级引证文献186

相关作者

相关机构

相关主题

浏览历史

MapReduce框架下并行知识约简算法模型研究被引量：17