类别严重不均衡应用的在线数据流学习算法被引量：1

Online Data Stream Mining for Seriously Unbalanced Applications

下载PDF

导出

摘要集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法。对于类别分布严重不均衡的应用,集成式数据流挖掘中数据块的学习方式导致样本数多的类别的分类精度高,样本数少的类别的分类精度低的问题,现有算法无法满足此类应用的需求。针对上述问题,对基于回忆机制的集成式数据流学习算法MAE(Memorizing based Adaptive Ensemble)进行改进,提出面向类别严重不均衡应用的在线数据流学习算法UMAE(Unbalanced data Learning based on MAE)。UMAE算法为每个类别设置了一个样本滑动窗口,对于新到达的数据块,其样本依据自身的类别分别进入相应的滑动窗口,最后利用各类别滑动窗口内的样本构建用于在线学习的数据块。与5种典型的数据流挖掘算法的比较结果表明,UMAE算法在满足实时性的同时,不仅整体分类精度高,而且对于样本数很少的小类别的分类精度有大幅度提高;对于异常检测等类别分布严重不均衡的应用,UMAE算法的实用性明显优于其他算法。 Using ensemble of classifiers on sequential blocks of training instances is a popular strategy for data stream mining with concept drifts.Yet for the seriously unbalanced applications where the number of examples for each class in the data blocks is totally different,traditional data block creation will result in low accuracy for the small classes with much less number of instances.This paper provided an updating algorithm UMAE（Unbalanced data learning based on MAE）for seriously unbalanced applications based on MAE（Memorizing based Adaptive Ensemble）.UMAE sets an equal-sized sliding window for each class.When each data block comes,each example in the data block comes into the corresponding sliding window based on its classes.During the learning process,a new data block will be created by using the instances in the current sliding windows.This new data block is adopted to generate a new classifier.Compared with five traditional data stream mining approaches,the results show that UMAE achieves high accuracy for seriously unbalanced applications,especially for the small classes with much less number of instances in the applications.

作者赵强利蒋艳凰

机构地区湖南商学院计算机与信息工程学院国防科技大学高性能计算国家重点实验室

出处《计算机科学》 CSCD 北大核心 2017年第6期255-259,共5页 Computer Science

基金国家自然科学基金(61272141 61120106005 61472136) 国防科技大学高性能计算国家重点实验室基金(201513-02)资助

关键词在线学习数据流挖掘回忆与遗忘机制不均衡数据学习 Online learning Data stream mining Recalling and forgetting mechanisms Unbalanced data learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1赵强利,蒋艳凰,徐明.选择性集成算法分类与比较[J].计算机工程与科学,2012,34(2):134-138. 被引量：9
2赵强利,蒋艳凰,卢宇彤.具有回忆和遗忘机制的数据流挖掘模型与算法[J].软件学报,2015,26(10):2567-2580. 被引量：15

二级参考文献11

1Dietterich T. Machine Learning Research: Four Current Directions[J]. AI Magazine, 1997, 18(4):97-136.
2Zhou Z-H, Wu J, Tang W. Ensembling Neural Networks: Many Could Be Better Than All[J]. Artificial Intelligence, 2002, 137(1-2) :239-263.
3Caruana R, Niculescu-Mizil A, Crew G, et al. Ensemble Selection from Libraries of Models[C]//Proc of the 21st International Conference on Machine Learning, 2004.
4Martinez-Munoz G, Suarez A. Pruning in Ordered Bagging Ensembles[C]//Proc of the 23rd International Conference in Machine Learning, 2006 : 609-616.
5Martinez-Munoz G, Hernandez Lobato D, Suarez A. An Analysis of Ensemble Pruning Techniques Based on Ordered Aggregation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2), 245-259.
6Lazarevic A, Obradovic Z. The Effieetive Pruning of Neural Network Classifiers[C]//Proc of the 2001 IEEE/INNS In ternational Conference on Neural Networks, 2001:796 801.
7Zhao Q L, Jiang Y H, Xu M. A Fast Ensemble Pruning Algorithm Based on Pattern Mining [J]. Data Mining and Knowledge Discovery, 2009,19 (2) : 277-292.
8Dzeroski S,Zenko B. Is Combining Classifiers Better than Selecting the Best One[C]//Proc of the Nineteenth International Conference on Machine Learning, 2002:123-130.
9Breiman L. Bagging Predictors[J]. Machine Learning, 1996, 24(2) : 123-140.
10赵强利,蒋艳凰,徐明.基于FP-Tree的快速选择性集成算法[J].软件学报,2011,22(4):709-721. 被引量：6

共引文献22

1陈亚科.基于大数据的信息传输过程中数据安全性的研究[J].电子测量技术,2020(7):119-123. 被引量：10
2周红芳,王啸,赵雪涵,饶元.基于频繁模式的选择性集成[J].应用科学学报,2013,31(6):628-632.
3李尧,王志海,孙艳歌,张伟.一种基于深度属性加权的数据流自适应集成分类算法[J].山东大学学报（工学版）,2018,48(6):44-55. 被引量：3
4李瑞.基于聚类的动态集成选择算法[J].计算机应用与软件,2014,31(8):317-323. 被引量：2
5赵强利,蒋艳凰,卢宇彤.具有回忆和遗忘机制的数据流挖掘模型与算法[J].软件学报,2015,26(10):2567-2580. 被引量：15
6谢华,陈海燕,袁立罡.基于SVR选择性集成的机场噪声预测模型研究[J].航空计算技术,2016,46(1):16-18. 被引量：2
7林雪云.基于游戏玩家流失预警的改进决策树算法[J].长春工业大学学报,2016,37(2):182-186.
8吴陈,杨镕华.基于垂直数据格式频繁闭项集的选择性集成算法的研究[J].电子设计工程,2016,24(19):69-72.
9李飞,齐林.基于决策树C4.5算法的大数据保险业模型研究[J].中国市场,2017(2):71-73. 被引量：3
10王宇燕,王杜娟,王延章,Yaochu Jin.改进随机森林的集成分类方法预测结直肠癌存活性[J].管理科学,2017,30(1):95-106. 被引量：16

同被引文献7

1李鹏,王晓龙,刘远超,王宝勋.一种基于混合策略的失衡数据集分类方法[J].电子学报,2007,35(11):2161-2165. 被引量：16
2李诒靖,郭海湘,李亚楠,刘晓.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199. 被引量：57
3吴晓平,周舟,李洪成.Spark框架下基于无指导学习环境的网络流量异常检测研究与实现[J].信息网络安全,2016(6):1-7. 被引量：16
4杨连群,温晋英,刘树发,王峰.一种改进的图分割算法在用户行为异常检测中的应用[J].信息网络安全,2016(6):35-40. 被引量：6
5任晓芳,赵德群,秦健勇.基于随机森林和加权K均值聚类的网络入侵检测系统[J].微型电脑应用,2016,32(7):21-24. 被引量：7
6何明亮,陈泽茂,左进.基于多窗口机制的聚类异常检测算法[J].信息网络安全,2016(11):33-39. 被引量：6
7胡洋瑞,陈兴蜀,王俊峰,叶晓鸣.基于流量行为特征的异常流量检测[J].信息网络安全,2016(11):45-51. 被引量：16

引证文献1

1王波,王怀彬.基于主动学习的非均衡异常数据分类算法研究[J].信息网络安全,2017(10):42-49. 被引量：1

二级引证文献1

1王喆,封春芳,李娟,谭薇.基于节点态势融合的网络安全态势评估方法[J].科技资讯,2021,19(19):26-28.

1赵强利,蒋艳凰,卢宇彤.具有回忆和遗忘机制的数据流挖掘模型与算法[J].软件学报,2015,26(10):2567-2580. 被引量：15
2买桂英,林娜,魏霖静.一种基于边缘图像的快速物体检测方法[J].计算机应用研究,2017,34(8):2525-2527.
3张祯,邓新洁,付二帅,王刘阳.一种用于文本复制检测的指纹特征选择算法[J].杭州电子科技大学学报（自然科学版）,2017,37(3):51-57. 被引量：2
4SUJuanhua,DONGQiming,LIUPing,LIHejun,KANGBuxi,TIANBaohong.Establishing the knowledge repository of rapidly solidified aging Cu-Cr-Zr alloy on the artificial neural-network[J].Rare Metals,2004,23(2):171-175. 被引量：3
5宁子岚.面向云存储基于属性的隐私保护算法[J].吉林大学学报（理学版）,2017,55(4):921-926. 被引量：2
6陈煜,李玲娟.一种基于决策树的隐私保护数据流分类算法[J].计算机技术与发展,2017,27(7):111-114. 被引量：4
7吴祯,潘晨,殷海兵.视觉感知正反馈的显著性检测[J].中国图象图形学报,2017,22(7):946-956. 被引量：5
8颜妍,周任君,柯宗建,刘长征,杜良敏,苏琪骅.基于TIGGE数据的西太平洋副热带高压多模式集成预报及检验[J].中国科学技术大学学报,2017,47(5):392-402. 被引量：2

计算机科学

2017年第6期

浏览历史

内容加载中请稍等...

类别严重不均衡应用的在线数据流学习算法被引量：1

参考文献2

二级参考文献11

共引文献22

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

类别严重不均衡应用的在线数据流学习算法 被引量：1

参考文献2

二级参考文献11

共引文献22

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

类别严重不均衡应用的在线数据流学习算法被引量：1