基于Spark的大数据三枝决策分类方法被引量：1

Processing Big Data with Three Way Decision Based on Spark

下载PDF

导出

摘要针对大规模的数据,借助Spark平台的分布式快速处理能力,提出了基于Spark的大数据三枝决策分类方法。该方法基于三枝决策理论,使用Spark对数据进行并行化处理。由经验数据获得数据的决策边界后,通过并行的方式进行正例和反例的判断,从而提高了在大数据集上的决策效率。采用多轮的分步决策方法提高了决策的效率与准确率。通过在UCI公开数据集mushroom和connect-4上的试验结果表明,新方法适用于大数据情况下的决策问题,大大提高了三枝决策分类算法的效率。 Aiming to solve decision-making problems on big data, we combine the ability of dis-tributed data processing of spark with three-way decision theory o This method is based on three-way decision theory. The boundary of the decision regions is firstly calculated by given data, and then each sample is estimated in terms of the belongings by paralleling, which can increase the effi-ciency greatly. Multi-round step by step decision making is used to further increase the efficiency and accuracy. The experiments are conducted on the UCI datasets （mushroom and connect-4）. The results show that the proposed method is effective in processing big data.

作者刘牧雷徐菲菲 LIU Mulei;XU Feifei(School of Computer Science and Technology,Shanghai University of Electric Power,Shanghai 200090,China)

机构地区上海电力学院计算机科学与技术学院

出处《上海电力学院学报》 CAS 2018年第5期483-490,共8页 Journal of Shanghai University of Electric Power

基金国家自然科学基金(61272437 61305094) 上海市教育发展基金会和上海市教育委员会"晨光计划"(13CG58)

关键词三枝决策 SPARK 大数据 three-way decision Spark big data

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1张越兵,苗夺谦,张志飞.基于三支决策的多粒度文本情感分类模型[J].计算机科学,2017,44(12):188-193. 被引量：11
2袁国鑫,于洪.一种基于邮件头信息的三支决策邮件过滤方法[J].计算机科学,2017,44(9):74-77. 被引量：6
3徐菲菲.区间值决策表的决策风险最小化属性约简[J].上海电力学院学报,2017,33(5):471-476. 被引量：2

二级参考文献14

1LIANG JiYe & QIAN YuHua Key Laboratory of Computational Intelligence and Chinese Information Processing,Ministry of Education,School of Computer & Information Technology,Shanxi University,Taiyuan 030006,China.Information granules and entropy theory in information systems[J].Science in China(Series F),2008,51(10):1427-1444. 被引量：41
2陈志贤.垃圾邮件过滤技术研究综述[J].计算机应用研究,2009,26(5):1612-1615. 被引量：13
3赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：533
4邓维斌,洪智勇.基于粗糙集的两阶段邮件过滤方法[J].计算机应用,2010,30(8):2006-2009. 被引量：3
5王素格,李德玉,魏英杰.基于赋权粗糙隶属度的文本情感分类方法[J].计算机研究与发展,2011,48(5):855-861. 被引量：19
6冯时,付永陈,阳锋,王大玲,张一飞.基于依存句法的博文情感倾向分析研究[J].计算机研究与发展,2012,49(11):2395-2406. 被引量：34
7郭庆,刘文军,焦贤发,吴磊.一种基于模糊聚类的区间值属性约简算法[J].模糊系统与数学,2013,27(1):149-153. 被引量：7
8于洪,姚园,赵军.一种有效的基于风险最小化的属性约简算法[J].南京大学学报（自然科学版）,2013,49(2):210-216. 被引量：6
9徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2119-2135. 被引量：22
10Internet Society of China.2014年第一季度中国反垃圾邮件状况调查报告[J].互联网天地,2014(7):59-67. 被引量：2

共引文献16

1孙海霞,许厚棣.基于三支决策模型的代价敏感数据分类方法[J].邵阳学院学报（自然科学版）,2018,15(4):22-31.
2刘洺辛,陈晶,王麒媛.基于改进特征选择方法的文本情感分类研究[J].电信科学,2018,34(10):85-95. 被引量：2
3刘玉娥.基于数据挖掘技术的网络信息过滤系统设计[J].现代电子技术,2018,41(16):51-54. 被引量：6
4刘丹,徐立新,李敬伟.不完备邻域多粒度决策理论粗糙集与三支决策[J].计算机应用与软件,2019,36(5):145-157. 被引量：14
5武慧琼,张素兰,张继福,胡立华.一种基于三支决策的花卉图像分类[J].小型微型计算机系统,2019,40(7):1558-1563. 被引量：7
6胡军,马康.基于鼠标行为的三支身份认证方法[J].南京理工大学学报,2019,43(4):474-480. 被引量：1
7万志超,胡峰,邓维斌.面向不平衡文本情感分类的三支决策特征选择方法[J].计算机应用,2019,39(11):3127-3133. 被引量：3
8彭成,展万里,周晓红.基于随机森林的异常邮件检测方法研究与实现[J].湖南工业大学学报,2020,34(1):70-76. 被引量：3
9计博婧,余静莹,陈洁.基于邻域信息的代价敏感三支决策文本情感分析模型[J].宿州学院学报,2020,35(4):75-80. 被引量：1
10张师鹏,李永忠.基于降噪自编码器和三支决策的入侵检测方法[J].计算机科学,2021,48(9):345-351. 被引量：4

同被引文献6

1夏宁霞,苏一丹,覃希.一种高效的K-medoids聚类算法[J].计算机应用研究,2010,27(12):4517-4519. 被引量：46
2于苹苹,倪建成,姚彬修,李淋淋,曹博.基于Spark框架的高效KNN中文文本分类算法[J].计算机应用,2016,36(12):3292-3297. 被引量：19
3刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫.面向大规模中文文本分类的朴素贝叶斯并行Spark算法（英文）[J].Journal of Central South University,2019,26(1):1-12. 被引量：20
4黄哲学,何玉林,魏丞昊,张晓亮.大数据随机样本划分模型及相关分析计算技术[J].数据采集与处理,2019,34(3):373-385. 被引量：16
5梅宏,杜小勇,金海,程学旗,柴云鹏,石宣化,靳小龙,王亚沙,刘驰.大数据技术前瞻[J].大数据,2023,9(1):1-20. 被引量：22
6Yulin He,Xu Li,Philippe Fournier‐Viger,Joshua Zhexue Huang,Mianjie Li,Salman Salloum.Observation points classifier ensemble for high-dimensional imbalanced classification[J].CAAI Transactions on Intelligence Technology,2023,8(2):500-517. 被引量：1

引证文献1

1李旭,何玉林,崔来中,黄哲学,PHILIPPE Fournier-Viger.基于大数据随机样本划分的分布式观测点分类器[J].计算机应用,2024,44(6):1727-1733.

1王玉,马为清,杜慧婵,毕春莹,何宇程.工业分拣机器人3D视觉定位系统应用[J].现代制造,2017,0(31):56-57. 被引量：1
2戴维.逻辑回归解决文本分类问题[J].通讯世界,2018,25(8):266-267. 被引量：6
3汪婵,王磊,丁西明.基于预聚类和主动半监督学习的遥感影像分类[J].湖北第二师范学院学报,2018,35(2):58-64.
4Zi-Wei Li,Shuai Ji,Bin Li,Shuang Wang,Yew-Min Tzeng,Xue Qiao,Min Ye.Metabolites identification and quantification of antcin H in mice tumors after oral administration of the anticancer mushroom Antrodia camphorata[J].TMR Modern Herbal Medicine,2018,1(2):1-11.
5汤倩倩.今天你吃菇了吗[J].食品与生活,2018,0(9):70-71.
6张硕,孙殿柱,李延瑞,梁增凯.海量采样点集法向聚类并行估计及增量统一算法[J].组合机床与自动化加工技术,2018(10):13-15.
7白东阳,刘健,王晓曼,景文博.Canny算子检测焊缝的GPU并行加速研究[J].长春理工大学学报（自然科学版）,2018,41(5):93-96. 被引量：2
8浩庆波,高慧,万曙静.一种基于PSO特征加权的局部支持向量机[J].智能计算机与应用,2018,8(6):61-63.
9玉米单向杂交不亲和研究取得进展[J].中国农业科技导报,2018,20(10):154-154.
10马恺.基于审计数据的入侵检测研究[J].福建电脑,2018,34(11):112-113.

上海电力学院学报

2018年第5期

浏览历史

内容加载中请稍等...

基于Spark的大数据三枝决策分类方法被引量：1

参考文献3

二级参考文献14

共引文献16

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Spark的大数据三枝决策分类方法 被引量：1

参考文献3

二级参考文献14

共引文献16

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Spark的大数据三枝决策分类方法被引量：1