基于粗糙集的海量数据挖掘算法研究被引量：10

Research on big data mining algorithm based on rough set

下载PDF

导出

摘要针对传统数据挖掘算法在数据量级方面的局限性,提出在粗糙集理论的基础上,采用类分布链表结构改进传统的基于属性重要性的数据离散化算法、属性约简算法以及基于启发式的值约简算法。讨论了基于动态聚类的两步离散化算法,当算法适应大数据处理之后,采用并行计算的方法提高算法的执行效率。算法测试结果表明,改进算法能有效地处理大数据量,同时并行计算解决了大数据量处理带来的效率问题。 Since the traditional data mining algorithm has the limitation in the aspect of data magnitude,on the basis of rough set theory,the class distribution list structure is used to improve the traditional data discretization algorithm based on attribute importance,attribute reduction algorithm and heuristic-based value reduction algorithm. The two-step discrete algorithm based on dynamic clustering is discussed. When the algorithm adapts to the big data processing,the parallel computing method is used to improve the execution efficiency of the algorithm. The test results of the algorithm show that the improved algorithm can effectively process the big data size. The parallel computing can solve the efficiency problem causing by big data size processing.

作者牛咏梅

机构地区南阳理工学院

出处《现代电子技术》北大核心 2016年第7期115-119,共5页 Modern Electronics Technique

关键词数据挖掘粗糙集大数据处理并行计算 data mining rough set big data processing parallel computing

分类号 TN911-34 [电子电信—通信与信息系统] TQ028.1 [化学工程]

引文网络
相关文献

参考文献7

1黄朝辉.基于变精度粗糙集的数据挖掘方法研究[J].赤峰学院学报（自然科学版）,2014,30(8):3-4. 被引量：3
2要照华,闫宏印.基于粗糙集的海量数据挖掘[J].机械管理开发,2010,25(1):17-18. 被引量：2
3刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
4陈贞,邢笑雪.粗糙集连续属性离散化的k均值方法[J].辽宁工程技术大学学报（自然科学版）,2015,34(5):642-646. 被引量：5
5CORNELIS C,KRYSZKIEWICZ M,SLEZAK D,et al.Rough sets and current trends in soft computing[M].Berlin:Springer,2014:11-15.
6刘建.并行程序设计方法学[M].武汉:华中科技大学出版社,2000:11-13.
7陈小燕.机器学习算法在数据挖掘中的应用[J].现代电子技术,2015,38(20):11-14. 被引量：26

二级参考文献25

1谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
2张东星,苗夺谦,李道国,张红云.基于数据库系统的可变精度粗糙集模型[J].计算机科学,2005,32(12):172-174. 被引量：4
3于锟,刘知贵,黄正良.粗糙集理论应用中的离散化方法综述[J].西南科技大学学报,2005,20(4):32-36. 被引量：19
4徐袭,许国荣,张虎.基于FCM与粗糙集的连续数据知识挖掘方法[J].海军工程大学学报,2006,18(1):103-107. 被引量：6
5黄晓莉,曾黄麟,王秀碧.基于模糊C均值聚类的粗集理论连续属性的离散化新算法[J].重庆邮电学院学报（自然科学版）,2006,18(5):650-652. 被引量：6
6Ning Zhong.Meningitis data mining by cooperatively using GDT-RS and RSBR[J].Pattem Recognition Letters,2003(24): 887 -894.
7韩中华,吴成东,赵贞丽,张娜.一种基于变精度粗糙集模型的数据挖掘方法[J].科技广场,2007(7):87-89. 被引量：1
8Z Pawlak.Rough set[J].Intemational Journal of Computer an Information Sciences, 1982(11)341-356.
9Li Chun,Yang Yan,Jia Meiduo,et al.Phylogenetic analysis of DNA sequences based on -word and rough set theory[J].Physica A:Statistical Mechanics and Its Applications,2014(398): 162-171.
10Zheng Bichen, Sang Won Yoon,Sarah S Lam.Breast cancer diagnosis based on feature extraction using a hybrid of K-means and support vector machine algorithms[J].Expert Systems with Applications,2014 (41):1 476-1482.

共引文献42

1高翔,侯小静.数据挖掘技术综述[J].牡丹江教育学院学报,2008(6):109-110. 被引量：2
2肖大伟,王国胤,胡峰.一种基于粗糙集理论的快速并行属性约简算法[J].计算机科学,2009,36(3):208-211. 被引量：16
3白旭英,杨有龙.贝叶斯网络诱导的内积空间[J].电子科技,2009,22(7):1-4. 被引量：1
4李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48
5林冬茂.数据挖掘技术在垃圾邮件检测中的应用[J].计算机仿真,2012,29(2):120-123. 被引量：6
6梁俊卿.基于动作图像特征的人体运动行为挖掘算法[J].计算机仿真,2013,30(9):424-427. 被引量：2
7鞠训光,邵晓根,鲍蓉,徐德兰,王海鹰.Hadoop下并行BP神经网络骆马湖水质分类[J].南京师大学报（自然科学版）,2014,37(1):52-56. 被引量：1
8张磊,陈东,王建新,高献伟,段晓毅.机器学习算法与应用[J].北京电子科技学院学报,2017,25(4):51-56. 被引量：3
9李圣普,王小辉,吕海莲.危险品运输车辆易燃信号挖掘方法研究与仿真[J].计算机仿真,2014,31(9):383-386.
10张志美,王旭,宣杨,何燕.石油勘探电磁层析成像在复杂岩层的应用仿真[J].计算机仿真,2014,31(9):407-410. 被引量：3

同被引文献68

1杨宁,马煜.东北网调自动化综合监控系统的建设[J].东北电力技术,2005,26(1):49-52. 被引量：3
2杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
3沈晨鸣.基于粗糙集的数据挖掘属性约简算法研究[J].南京工程学院学报（自然科学版）,2007,5(1):30-34. 被引量：3
4周海平,蔡绍洪.含能量耗散和容量扩充的电网级联故障模型[J].计算机应用研究,2011,28(4):1396-1397. 被引量：3
5陈磊,黄在朝.基于物联网的输电线路状态监测技术在智能电网中的应用研究[J].现代电子技术,2012,35(21):7-9. 被引量：8
6储兵,吴陈,杨习贝.基于RBF神经网络与粗糙集的数据挖掘算法[J].计算机技术与发展,2013,23(7):87-91. 被引量：17
7唐北平,鲁建国.基于粗糙集的数据挖掘算法在MES系统的研究与应用[J].湖南工程学院学报（自然科学版）,2013,23(3):41-43. 被引量：1
8陈超,张顺仕,尚守卫,孙飞.大数据背景下电力行业数据应用研究[J].现代电子技术,2013,36(24):8-11. 被引量：67
9娄圣金,张继福,刘爱琴.一种基于p权值的离群数据挖掘算法[J].小型微型计算机系统,2014,35(1):55-59. 被引量：6
10刘宗佳.超市营运系统的设计与实现[J].价值工程,2014,33(14):191-192. 被引量：1

引证文献10

1张晴,高广银,贾波.数据挖掘技术在超市营销系统中的应用[J].软件工程,2016,19(5):35-38. 被引量：6
2张世红.海量网页挂码信息自动采集方法仿真[J].计算机仿真,2017,34(4):280-283. 被引量：2
3杨宋华.基于数据挖掘的排球运动员身体素质评价模型[J].现代电子技术,2017,40(11):119-122. 被引量：3
4党红恩,赵尔平,孙海霞.云计算下非显著性特征数据实时挖掘方法仿真[J].计算机仿真,2017,34(7):203-206. 被引量：8
5魏勇军,黎炼,张弛,朱海兵.电力系统自动化运行状态监控云平台研究[J].现代电子技术,2017,40(15):153-158. 被引量：19
6杨雄钢.基于聚类分析的电子商务客户忠诚度研究[J].电子世界,2017,0(21):47-47.
7许晓燕.基于粗糙集的数据挖掘算法研究[J].数码世界,2018,0(7):277-278. 被引量：1
8李国和,杨绍伟,吴卫江,郑艺峰.基于聚类的连续型数据缺失值充填方法[J].计算机工程,2019,45(9):32-39. 被引量：12
9徐岩柏.基于粗糙集理论的数据挖掘技术分析[J].集成电路应用,2023,40(3):73-75. 被引量：1
10陶泽,刘媛.粗糙集基础上海量数据挖掘的算法分析[J].中国战略新兴产业,2018(10X):158-158. 被引量：2

二级引证文献54

1李王镕.超市消费者行为分析与营销创新[J].质量与市场,2021(14):157-159. 被引量：2
2贾丽,乔权根.社区发现算法在超市货架布局中的应用[J].经济统计学（季刊）,2018(1):193-205.
3张东兵.基于数据挖掘的排球动员训练动作评价模型研究[J].电脑知识与技术,2020,0(4):274-275.
4路玫,曹大明,王宪龄,赵喜新.穴贴扶正升白膏对化疗小鼠造血及免疫系统的实验研究[J].河南中医,2000,20(3):17-19. 被引量：2
5戈士文,张艳,腊胜明,李月华.气血葆口服液与阿霉素合用对荷瘤小鼠化疗的增效作用[J].河南中医,2000,20(3):20-21. 被引量：4
6马连灯,王占刚.基于滑动窗口模型的数据流加权频繁模式挖掘算法[J].软件工程,2016,19(10):15-17. 被引量：1
7严圣华,王昌达.关于异构型物联网重复数据有效清除仿真[J].计算机仿真,2018,35(5):444-447. 被引量：1
8杨森彬.线性回归和随机森林算法融合在餐饮客流量的预测[J].软件工程,2018,21(7):24-27. 被引量：5
9聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3
10周鹏.非结构化网络分布式差异数据实时挖掘仿真[J].计算机仿真,2018,35(9):333-337. 被引量：2

1张贵红,李中华.基于粗糙集的海量数据挖掘算法研究[J].现代电子技术,2016,39(17):116-119. 被引量：8
2陶彩霞,谢晓军,陈康,郭利荣,刘春.基于云计算的移动互联网大数据用户行为分析引擎设计[J].电信科学,2013,29(3):27-31. 被引量：33
3唐旭.采用RSA加密算法解决电子商务的安全问题[J].电光系统,2003(2):48-50.
4罗明,杨绍全.基于动态聚类的MPSK信号调制分类[J].电路与系统学报,2005,10(2):83-86. 被引量：2
5叶倩.基于FPGA的视频监控系统设计与实现[J].中小企业管理与科技,2016,0(17):156-157.
6白宁.基于主动学习的支持向量机算法[J].现代电子技术,2013,36(24):22-24. 被引量：2
7程汉文,吴乐南.有频偏的星座图恢复和匹配[J].电路与系统学报,2010,15(1):49-54. 被引量：2
8吴水苟.关于提高镀铬阴极电流效率问题浅探[J].上海电镀,1993(4):16-19.
9程汉文,吴乐南.基于接收信号点极坐标的调制方式识别[J].电路与系统学报,2009,14(1):111-115.
10陈华,关宇东,王健.一种短波通信中基于DSP的低速率语音编码技术[J].应用科技,2007,34(8):9-13. 被引量：3

现代电子技术

2016年第7期

浏览历史

内容加载中请稍等...

基于粗糙集的海量数据挖掘算法研究被引量：10

参考文献7

二级参考文献25

共引文献42

同被引文献68

引证文献10

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的海量数据挖掘算法研究 被引量：10

参考文献7

二级参考文献25

共引文献42

同被引文献68

引证文献10

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的海量数据挖掘算法研究被引量：10