云计算下保持边界域划分的知识约简算法研究被引量：1

Knowledge reduction algorithm for boundary region partition in cloud computing

下载PDF

导出

摘要知识约简是数据挖掘应用中知识获取的重要步骤。经典的知识约简算法是一次性将小数据集装入内存中进行知识约简,而传统的并行知识约简仅仅利用任务并行来提高约简算法效率,都无法处理海量数据。通过分析经典的知识约简算法,构建了不可辨识的对象对,提出了保持边界域划分的知识约简算法,并探讨了保持边界域划分的知识约简算法之间的关系。深入剖析了知识约简算法中数据和任务同时并行的可行性,提出了云计算环境下保持边界域划分的知识约简算法框架模型,在Hadoop平台上构建了云计算环境并进行了相关实验。实验结果表明该知识约简算法可以处理海量数据集。 Knowledge reduction in rough set theory is the critical process of knowledge acquisition among data mining applications. Classical knowledge reduction algorithms assume all the datasets can be loaded into the main memory, while the existing parallel knowledge reduction algorithms only implement reduction tasks concurrently, which are infeasible for large-scale datasets. Massive data with high dimension makes attribute reduction a challenging task. To solve this problem,the concept of indiscernibility object pairs is defined and a new knowledge reduction algorithm for boundary region partition preserving is proposed. The relationship among these algorithms is illustrated in detail. Then, the parallelism strategies of data and task parallel are implemented and discussed. The corresponding attribute reduction framework model for boundary region partition preserving is presented. The experimental results demonstrate that knowledge reduction algorithms in cloud computing can efficiently process massive datasets on Hadoop platform.

作者常玉慧吕萍钱进

机构地区江苏理工学院计算机工程学院江苏理工学院云计算与智能信息处理常州市重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2015年第24期159-164,185,共7页 Computer Engineering and Applications

基金江苏省自然科学基金(No.BK20141152) 教育部人文社会科学研究青年基金项目(No.15YJCZH129) 常州市云计算与智能信息处理重点实验室项目(No.CM20123004) 江苏省青蓝工程项目

关键词云计算粗糙集知识约简数据并行任务并行 cloud computing rough set knowledge reduction data parallel task parallel

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献24

1Han J,Kamber M.Data mining—concepts and techniques[M].2nd ed.[S.l.]:Morgan Kaufman Publishers,2006.
2Ghemawat S,Gobioff H,Leung S T.The Google file system[J].SIGOPS-Operating Systems Review,2003,37(5):29-43.
3Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
4Pawlak Z.Rough sets[J].International Journal of Computer and Information Science,1982,11(5):341-356.
5徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
6刘勇,熊蓉,褚健.Hash快速属性约简算法[J].计算机学报,2009,32(8):1493-1499. 被引量：35
7Qian Y H,Liang J Y,Pedrycz W,et al.Positive approximation:an accelerator for attribute reduction in rough set theory[J].Artificial Intelligence,2010,174:597-618.
8苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684. 被引量：507
9苗夺谦,王珏.粗糙集理论中概念与运算的信息表示[J].软件学报,1999,10(2):113-116. 被引量：250
10王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766. 被引量：594

二级参考文献70

1于达仁,胡清华,鲍文.融合粗糙集和模糊聚类的连续数据知识发现[J].中国电机工程学报,2004,24(6):205-210. 被引量：70
2叶东毅,陈昭炯.一个新的二进制可辨识矩阵及其核的计算[J].小型微型计算机系统,2004,25(6):965-967. 被引量：49
3朱永利,吴立增,李雪玉.贝叶斯分类器与粗糙集相结合的变压器综合故障诊断[J].中国电机工程学报,2005,25(10):159-165. 被引量：82
4王珏,袁小红,石纯一,郝继刚.关于知识表示的讨论[J].计算机学报,1995,18(3):212-224. 被引量：54
5谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
6徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
7杨明.一种基于改进差别矩阵的核增量式更新算法[J].计算机学报,2006,29(3):407-413. 被引量：76
8王永强,律方成,李和明.基于粗糙集理论和贝叶斯网络的电力变压器故障诊断方法[J].中国电机工程学报,2006,26(8):137-141. 被引量：100
9孙秋野,张化光.基于粗糙集的配电系统连续信号故障诊断方法[J].中国电机工程学报,2006,26(11):156-161. 被引量：12
10王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264

共引文献1712

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：11
2景运革,景罗希,王宝丽,程妮.属性值和属性变化的增量属性约简算法[J].山东大学学报（理学版）,2020,55(1):62-68. 被引量：7
3林耀进,白盛兴,赵红,李绍滋,胡清华.基于标签关联性的分层分类共有与固有特征选择[J].软件学报,2022,33(7):2667-2682. 被引量：6
4危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：4
5包沙如拉,孙鹏.海云协同媒体服务的副本分发管理子系统设计[J].网络新媒体技术,2020(3):56-60. 被引量：1
6侯贤宇,陈玉明,吴克寿.多采样近似粒集成学习[J].南京大学学报（自然科学版）,2024,60(1):118-129.
7金铭,陈锦坤,孙亚超.基于边界域条件熵的最优尺度约简[J].南京大学学报（自然科学版）,2023,59(6):1034-1047.
8程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936. 被引量：1
9孙泽金,赵荣珍.基于EEMD能量矩与邻域粗糙集的转子故障数据集分类方法[J].计算机应用研究,2020,37(2):460-464. 被引量：5
10徐伟华,张俊杰,陈修伟.带关注度模糊序决策数据集的分布约简[J].计算机科学,2022,49(S02):312-316. 被引量：1

同被引文献6

1黎敏,冯圣中,樊建平,刘清.基于粗集边界域的快速约简算法[J].计算机科学,2012,39(1):223-227. 被引量：7
2黄国顺,文翰.基于边界域的条件信息熵和属性约简[J].计算机应用,2015,35(10):2771-2776. 被引量：6
3刘芳,李天瑞.基于边界域的不完备信息系统属性约简方法[J].计算机科学,2016,43(3):242-245. 被引量：13
4彭莉莎,钱文彬,王映龙.面向特定类的三支概率属性约简算法[J].小型微型计算机系统,2019,40(9):1851-1857. 被引量：6
5陈阳,张楠,孙雪姣,童向荣,张小峰.基于特定类不完备决策系统的分布约简[J].计算机应用研究,2020,37(9):2659-2664. 被引量：2
6牟恩,张贤勇,姚岳松,邓切.邻域近似条件熵的特定类属性约简及启发算法[J].计算机工程与应用,2020,56(24):175-180. 被引量：2

引证文献1

1吴婉琳,张贤勇,莫智文.基于粗糙集不确定度的特定类属性约简[J].四川师范大学学报（自然科学版）,2021,44(6):840-846. 被引量：7

二级引证文献7

1李亦轩,褚福灵.基于粗糙集-区间灰数-DEMATEL模型的长期照护制度设计影响因素识别研究[J].管理评论,2023,35(10):320-327. 被引量：2
2谭兴富,邬金亮,徐虎彪.煤化工厂煤炭洗选机械设备运行状态监测方法[J].化工自动化及仪表,2024,51(1):128-132.
3韩双志,徐涛.区间值决策系统的多特定类属性约简[J].福建电脑,2024,40(4):40-44.
4吴极,周明,徐敏,张靖,郭洋,张永梅.多维时空数据分布式协同进化属性约简分析[J].电子设计工程,2024,32(15):16-20.
5杜维柱,张金满,张晓华,卢毅,王书渊,沈彦伶.基于AHP-熵-TOPSIS理论的输电线路灾害风险研究[J].微型电脑应用,2024,40(8):68-72.
6黄兵,孙可.基于异类粒球分离度的自适应属性约简[J].闽南师范大学学报（自然科学版）,2024,37(3):1-16.
7黄维嘉.大学生抖音直播体验及其影响因素分析[J].统计学与应用,2023,12(5):1274-1282.

1钱进,苗夺谦,张泽华.云计算环境下差别矩阵知识约简算法研究[J].计算机科学,2011,38(8):193-196. 被引量：5
2陈国顺,李铄,蔡金明.并行程序设计方式[J].工业技术经济,1997(4):71-80.
3沈志宇,廖湘科.多处理机系统的微任务并行[J].国防科技大学学报,1991,13(4):15-18.
4陈国顺,鞠九滨.FORTRAN　M：支持任务并行的语言[J].小型微型计算机系统,1996,17(5):23-28. 被引量：1
5王松.基于任务的并行编程模型[J].信息通信,2015,28(6):70-70.
6王蕾,崔慧敏,陈莉,冯晓兵.任务并行编程模型研究与进展[J].软件学报,2013,24(1):77-90. 被引量：29
7钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12):2332-2343. 被引量：42
8柴振荣.面向任务并行通过的结构[J].管理观察,1995,0(8):52-52.
9闫冲.基于云计算的层次粗糙集模型约简算法研究[J].计算机与数字工程,2014,42(8):1332-1334.
10李晓梅.高性能并行计算基础理论与软件[J].装备指挥技术学院学报,2003,14(1):61-61.

计算机工程与应用

2015年第24期

浏览历史

内容加载中请稍等...

云计算下保持边界域划分的知识约简算法研究被引量：1

参考文献24

二级参考文献70

共引文献1712

同被引文献6

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

云计算下保持边界域划分的知识约简算法研究 被引量：1

参考文献24

二级参考文献70

共引文献1712

同被引文献6

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

云计算下保持边界域划分的知识约简算法研究被引量：1