基于粗糙集的海量数据挖掘算法研究被引量：8

Research on massive data mining algorithm based on rough set

下载PDF

导出

摘要针对传统数据挖掘算法在数据量级方面的局限性,提出在粗糙集理论的基础上,采用类分布链表结构改进传统的基于属性重要性的数据离散化算法、属性约简算法以及基于启发式的值约简算法;讨论了基于动态聚类的两步离散化算法,当算法适应大数据处理之后,采用并行计算的方法提高算法的执行效率。算法测试结果表明改进的算法能有效地处理大数据量,同时并行计算解决了大数据量处理带来的效率问题。 Since traditional data mining algorithms have the limitation of data magnitude,and on the basis of rough set theory,the class distribution list structure is used to improve the traditional data discretization algorithm based on attribute im-portance,attribute reduction algorithm and heuristic-based value reduction algorithm. A two-step discrete algorithm based on dynamic clustering is discussed. When the algorithm is suited for the big data processing,the parallel computing method is used to improve the execution efficiency of the algorithm. The test results of this algorithm show that the improved algorithm can process the massive data effectively,and the parallel computing can solve the efficiency problem caused by massive data processing.

作者张贵红李中华

机构地区乐山师范学院计算机科学学院

出处《现代电子技术》北大核心 2016年第17期116-119,123,共5页 Modern Electronics Technique

基金 2015年四川省教育厅项目:基于主题爬虫技术的网络舆情监督及热点发现研究(15ZB0258) 2015年四川省教育厅旅游研究中心项目:数据挖掘算法在智慧服务中的应用(LYC15-16)

关键词数据挖掘粗糙集大数据处理并行计算 data mining rough set big data processing parallel computing

分类号 TN911-34 [电子电信—通信与信息系统] TQ028.1 [化学工程]

引文网络
相关文献

参考文献5

1黄朝辉.基于变精度粗糙集的数据挖掘方法研究[J].赤峰学院学报（自然科学版）,2014,30(8):3-4. 被引量：3
2要照华,闫宏印.基于粗糙集的海量数据挖掘[J].机械管理开发,2010,25(1):17-18. 被引量：2
3刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
4陈贞,邢笑雪.粗糙集连续属性离散化的k均值方法[J].辽宁工程技术大学学报（自然科学版）,2015,34(5):642-646. 被引量：5
5陈小燕.机器学习算法在数据挖掘中的应用[J].现代电子技术,2015,38(20):11-14. 被引量：26

二级参考文献25

1谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
2张东星,苗夺谦,李道国,张红云.基于数据库系统的可变精度粗糙集模型[J].计算机科学,2005,32(12):172-174. 被引量：4
3于锟,刘知贵,黄正良.粗糙集理论应用中的离散化方法综述[J].西南科技大学学报,2005,20(4):32-36. 被引量：19
4徐袭,许国荣,张虎.基于FCM与粗糙集的连续数据知识挖掘方法[J].海军工程大学学报,2006,18(1):103-107. 被引量：6
5黄晓莉,曾黄麟,王秀碧.基于模糊C均值聚类的粗集理论连续属性的离散化新算法[J].重庆邮电学院学报（自然科学版）,2006,18(5):650-652. 被引量：6
6Ning Zhong.Meningitis data mining by cooperatively using GDT-RS and RSBR[J].Pattem Recognition Letters,2003(24): 887 -894.
7韩中华,吴成东,赵贞丽,张娜.一种基于变精度粗糙集模型的数据挖掘方法[J].科技广场,2007(7):87-89. 被引量：1
8Z Pawlak.Rough set[J].Intemational Journal of Computer an Information Sciences, 1982(11)341-356.
9Li Chun,Yang Yan,Jia Meiduo,et al.Phylogenetic analysis of DNA sequences based on -word and rough set theory[J].Physica A:Statistical Mechanics and Its Applications,2014(398): 162-171.
10Zheng Bichen, Sang Won Yoon,Sarah S Lam.Breast cancer diagnosis based on feature extraction using a hybrid of K-means and support vector machine algorithms[J].Expert Systems with Applications,2014 (41):1 476-1482.

共引文献42

1高翔,侯小静.数据挖掘技术综述[J].牡丹江教育学院学报,2008(6):109-110. 被引量：2
2肖大伟,王国胤,胡峰.一种基于粗糙集理论的快速并行属性约简算法[J].计算机科学,2009,36(3):208-211. 被引量：16
3白旭英,杨有龙.贝叶斯网络诱导的内积空间[J].电子科技,2009,22(7):1-4. 被引量：1
4李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48
5林冬茂.数据挖掘技术在垃圾邮件检测中的应用[J].计算机仿真,2012,29(2):120-123. 被引量：6
6梁俊卿.基于动作图像特征的人体运动行为挖掘算法[J].计算机仿真,2013,30(9):424-427. 被引量：2
7鞠训光,邵晓根,鲍蓉,徐德兰,王海鹰.Hadoop下并行BP神经网络骆马湖水质分类[J].南京师大学报（自然科学版）,2014,37(1):52-56. 被引量：1
8张磊,陈东,王建新,高献伟,段晓毅.机器学习算法与应用[J].北京电子科技学院学报,2017,25(4):51-56. 被引量：3
9李圣普,王小辉,吕海莲.危险品运输车辆易燃信号挖掘方法研究与仿真[J].计算机仿真,2014,31(9):383-386.
10张志美,王旭,宣杨,何燕.石油勘探电磁层析成像在复杂岩层的应用仿真[J].计算机仿真,2014,31(9):407-410. 被引量：3

同被引文献98

1杨明,孙志挥.改进的差别矩阵及其求核方法[J].复旦学报（自然科学版）,2004,43(5):865-868. 被引量：71
2胡峰,黄海,王国胤,吴渝.不完备信息系统的粒计算方法[J].小型微型计算机系统,2005,26(8):1335-1339. 被引量：18
3徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
4栾大龙,铉一民,姚彬,赵焕丛.基于粗糙集—主成分分析的企业创新能力评价实证研究[J].计算机工程与应用,2007,43(4):207-209. 被引量：6
5胡峰,代劲,王国胤.一种决策表增量属性约简算法[J].控制与决策,2007,22(3):268-272. 被引量：18
6杨明.一种基于改进差别矩阵的属性约简增量式更新算法[J].计算机学报,2007,30(5):815-822. 被引量：112
7王国胤,张清华,胡军.粒计算研究综述[J].智能系统学报,2007,2(6):8-26. 被引量：112
8张化光,徐悦,孙秋野.基于模糊粗糙集的系统连续变量离散化方法[J].东北大学学报（自然科学版）,2008,29(1):1-4. 被引量：9
9赵敏,罗可,秦哲.基于粒计算的属性约简算法[J].计算机工程与应用,2008,44(30):157-159. 被引量：6
10徐久成,史进玲,孙林.一种基于相对粒度的决策表约简算法[J].计算机科学,2009,36(3):205-207. 被引量：22

引证文献8

1邬阳阳,汤建国.大数据背景下粗糙集属性约简研究进展[J].计算机工程与应用,2019,55(6):31-38. 被引量：27
2居保华,陈皇宇.基于改进关联搜索的海量病案信息挖掘算法设计[J].中国数字医学,2019,14(4):91-93. 被引量：2
3佘志用,宋涛,张雷.粗糙集和规定化直方图图像增强算法研究[J].软件导刊,2019,18(12):108-111. 被引量：1
4熊学锋,周苏,宋凯.泛在电力物联网的用户侧电力大数据关键技术[J].信息技术,2020,44(10):149-154. 被引量：9
5Li Bian,Hui He,Hongna Sun,Wenjing Liu.Fault Attribute Reduction of Oil Immersed Transformer Based on Improved Imperialist Competitive Algorithm[J].Journal of Harbin Institute of Technology(New Series),2020,27(6):83-90.
6王俊,戴璐平,冯秀庆,潘晔.混合大数据算法分析营销大数据客户用电行为[J].信息技术,2021,45(4):125-129. 被引量：5
7杨涛,张戈,付裕.基于决策类的分块差别矩阵及属性集求核算法[J].数学的实践与认识,2022,52(7):107-114.
8廖斌,王婷,陈尔东.白酒企业竞争优势指标权重研究[J].中国集体经济,2019(6):86-87. 被引量：1

二级引证文献45

1李甲林.甘肃利用经济杠杆积极推进水价改革[J].中国水利,2000(6):22-23. 被引量：1
2廖斌,王婷,王海天.白酒企业可持续竞争力评价研究[J].中国酿造,2019,38(7):200-204. 被引量：9
3李悟早,郭术义,任思杰.模糊控制理论综述[J].河南科技,2019,0(11):12-15. 被引量：31
4杜彭.基于粗糙集对港口通航环境的评价指标体系的筛选[J].中国水运（下半月）,2019,19(8):141-142.
5王晖.粗糙集约简算法在大学生心理诊断中的应用[J].电脑与信息技术,2019,27(5):5-8.
6邬阳阳,郭文强,汤建国,任艳.几类拓展粗糙集模型属性约简研究综述[J].宜宾学院学报,2019,19(12):29-38. 被引量：3
7李晓松,姬婷,张永刚.基于粗糙集的装备采购信息定密规则研究[J].保密科学技术,2019(12):62-68. 被引量：2
8刘国强,林叶锦,张志政,庞水.基于粗糙集和优化DAG-SVM的船舶主机故障诊断方法[J].中国舰船研究,2020,15(1):68-73. 被引量：13
9沈玉峰,林徐.基于矩阵策略的不完备混合型数据增量式特征选择算法[J].西昌学院学报（自然科学版）,2020,34(1):71-78.
10刘正,陈雪勤,张书锋.基于最小化邻域互信息的邻域熵属性约简算法[J].微电子学与计算机,2020,37(3):26-32. 被引量：4

1牛咏梅.基于粗糙集的海量数据挖掘算法研究[J].现代电子技术,2016,39(7):115-119. 被引量：10
2陶彩霞,谢晓军,陈康,郭利荣,刘春.基于云计算的移动互联网大数据用户行为分析引擎设计[J].电信科学,2013,29(3):27-31. 被引量：33
3唐旭.采用RSA加密算法解决电子商务的安全问题[J].电光系统,2003(2):48-50.
4罗明,杨绍全.基于动态聚类的MPSK信号调制分类[J].电路与系统学报,2005,10(2):83-86. 被引量：2
5叶倩.基于FPGA的视频监控系统设计与实现[J].中小企业管理与科技,2016,0(17):156-157.
6白宁.基于主动学习的支持向量机算法[J].现代电子技术,2013,36(24):22-24. 被引量：2
7程汉文,吴乐南.有频偏的星座图恢复和匹配[J].电路与系统学报,2010,15(1):49-54. 被引量：2
8程汉文,吴乐南.基于接收信号点极坐标的调制方式识别[J].电路与系统学报,2009,14(1):111-115.
9陈华,关宇东,王健.一种短波通信中基于DSP的低速率语音编码技术[J].应用科技,2007,34(8):9-13. 被引量：3
10吴水苟.关于提高镀铬阴极电流效率问题浅探[J].上海电镀,1993(4):16-19.

现代电子技术

2016年第17期

浏览历史

内容加载中请稍等...

基于粗糙集的海量数据挖掘算法研究被引量：8

参考文献5

二级参考文献25

共引文献42

同被引文献98

引证文献8

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的海量数据挖掘算法研究 被引量：8

参考文献5

二级参考文献25

共引文献42

同被引文献98

引证文献8

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的海量数据挖掘算法研究被引量：8