一种基于混合模型的数据流概念漂移检测算法被引量：13

Concept Drift Detection for Data Streams Based on Mixture Model

下载PDF

导出

摘要由于在信用卡欺诈分析等领域的广泛应用,学者们开始关注概念漂移数据流分类问题.现有算法通常假设数据一旦分类后类标已知,利用所有待分类实例的真实类别来检测数据流是否发生概念漂移以及调整分类模型.然而,由于标记实例需要耗费大量的时间和精力,该解决方案在实际应用中无法实现.据此,提出一种基于KNNModel和增量贝叶斯的概念漂移检测算法KnnM-IB.新算法在具有KNNModel算法分类被模型簇覆盖的实例分类精度高、速度快优点的同时,利用增量贝叶斯算法对难处理样本进行分类,从而保证了分类效果.算法同时利用可变滑动窗口大小的变化以及主动学习标记的少量样本进行概念漂移检测.当数据流稳定时,半监督学习被用于扩大标记实例的数量以对模型进行更新,因而更符合实际应用的要求.实验结果表明,该方法能够在对数据流进行有效分类的同时检测数据流概念漂移及相应地更新模型. As its application in credit card fraud detection and many other fields,more and more scholars are paying attention to the classification for concept drifting data streams.Most existing algorithms assume that the true labels of the testing instances can be accessed right after they are classified,and utilize them to detect concept drift and adjust current model.It is an impractical assumption in real-world because manual labeling of instances which arrive continuously at a high speed requires a lot of time and effort.For the problem mentioned above,this paper proposes a concept drift detection method based on KNNModel algorithm and incremental Bayes algorithm which is called KnnM-IB.The proposed method has the virtue of the KNNModel algorithm when classifying instances covered by the model clusters.In addition,the incremental Bayes algorithm is used to handle the confused instances and update the model.Using the change of the window size and the few labeled most informative instances which are chosen by active learning,the KnnM-IB algorithm can detect the concept drift on data streams.Semi-supervised learning technology is also used to increase the number of the labeled instances to update the model when the underlying concept of the data streams is stable.Experimental results show that compared with the traditional classification algorithms,the proposed method not only adapts to the situation of concept drift,but also acquires the comparable or better classification accuracy.

作者郭躬德李南陈黎飞

机构地区福建师范大学数学与计算机科学学院网络安全与密码技术福建省高校重点实验室(福建师范大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2014年第4期731-742,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61070062 61175123) 福建省高校产学合作科技重大项目(2010H6007)

关键词概念漂移数据流分类主动学习半监督学习 concept drift data stream classification active learning semi-supervised learning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献33

1Kotsiantis S B, Pintelas P E. Recent advances in clustering: A brief survey [J]. WSEAS Trans on Information Science and Application, 2004, 11(1): 73-81.
2Zhang P, Zhu X, Shi Y, et al. An aggregate ensemble for mining concept drifting data streams with noise [C] //Proc of the 13th Pacific-Asia Conf on Knowledge Discovery. Berlin: Springer, 2009:1021-1029.
3李南,郭躬德.面向高速数据流的集成分类器算法[J].计机应用,2012,32(3):629-633.
4Liu J, Li X, Zhong W. Ambiguous decision trees for mining concept-drifting data streams [J]. Pattern Recognition Letters, 2008, 30(15) : 1347-1355.
5李南,郭躬德.基于子空间集成的概念漂移数据流分类算法[J].计算机系统应用,2011,20(12):240-248. 被引量：5
6Widmer G, Kubat M. Learning in the presence of concept drift and hidden contexts [J]. Machine Learning, 1996, 23 (1) : 69-101.
7Delany S J, Cunningham P, Tsymbal A. A comparison of ensemble and case-base maintenance techniques for handing concept drift in spare filtering [C] //Proc of the 19th Int Conf on Artificial Intelligence. Menlo Park: AAAI, 2006: 340- 345.
8Zhou D, Bousquet O, Lal T N, et al. Learning with local and global consistency [C]//Proc of the 18th Annual Conf on Neural Information Processing Systems. Cambridge: MIT, 2003:321-328.
9张孝飞,黄河燕.一种采用聚类技术改进的KNN文本分类方法[J].模式识别与人工智能,2009,22(6):936-940. 被引量：32
10陈黎飞,郭躬德.最近邻分类的多代表点学习算法[J].模式识别与人工智能,2011,24(6):882-888. 被引量：18

二级参考文献122

1滕月阳,唐焕文,张海霞.一种新的支持向量机增量学习算法[J].计算机工程与应用,2004,40(36):77-80. 被引量：7
2陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
3刘勇国,张伟,陈克非,廖晓峰.基于禁忌搜索的聚类簇数目估算算法[J].计算机科学,2005,32(1):168-171. 被引量：2
4杜奕,卢德唐,黄丰,王磊.一种面向高维符号数据的随机投影聚类算法[J].小型微型计算机系统,2006,27(9):1605-1607. 被引量：2
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
6姜斌,黎湘,王宏强,郭桂蓉.模式分类方法研究[J].系统工程与电子技术,2007,29(1):99-102. 被引量：6
7刘文军,谷云东,李洪兴.基于加权综合的分类算法(英文)[J].模糊系统与数学,2007,21(1):128-136. 被引量：2
8王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
9宫秀军史忠植.基于贝叶斯潜在语义模型的半监督Web挖掘[J].软件学报，已录用,.
10桑农,张荣,张天序.一类改进的最小距离分类器的增量学习算法[J].模式识别与人工智能,2007,20(3):358-364. 被引量：9

共引文献160

1赵璐,何子况,朱秋煜.基于CNN和BIRCH聚类算法的类别增量学习[J].电子测量技术,2020(11):79-84. 被引量：1
2郑佳谦,徐隽,姚静,牛军钰.论坛社区用户时空特征建模与挖掘[J].计算机研究与发展,2007,44(z3):7-12. 被引量：1
3姜卯生,王浩,姚宏亮.朴素贝叶斯分类器增量学习序列算法研究[J].计算机工程与应用,2004,40(14):57-59. 被引量：10
4杨森,徐海涛,柴乔林.应用支持向量机实现增量入侵检测[J].计算机工程与应用,2004,40(27):142-143. 被引量：1
5张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
6李家春,李之棠.分布式入侵告警关联分析[J].计算机研究与发展,2004,41(11):1919-1923. 被引量：6
7王利民,苑森淼.具有抗噪音能力的增量式混合贝叶斯网络[J].仪器仪表学报,2005,26(3):221-225. 被引量：1
8钱玲飞,刘玉树,李侃.朴素贝叶斯分类器在地形评估中的应用方法[J].计算机工程与应用,2005,41(12):189-191. 被引量：6
9郭庆琳,樊孝忠,柳长安.文本聚类在自动文摘中的应用研究[J].计算机应用,2005,25(5):1036-1038. 被引量：4
10王小英,赵海,林涛,张文波,尹震宇.基于信任的普适计算服务选择模型[J].通信学报,2005,26(5):1-8. 被引量：17

同被引文献88

1王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：40
2Jonathan A S, Elaine R F, Rodrigo C B, et al: Data stream clustering: a survey[J]. ACM Computing Surveys, 2013, 46(1): 13:1-13:31.
3Shifei D, Fulin W, Jun Q, et al: Research on data stream clustering algorithms[J]. Artificial Intelligence Review, 2013, 43(4): 593-600.
4Tian Z, Raghu R, and Miron L. BIRCH: an efficient data clustering method for very large databases[C]. Proceedings of the ACM SIGMOD International Conference on Management of Data, New York, USA, 1996: 103-114.
5Aggarwal C C, Han J, and Yu P S. A framework for clustering evolving data streams[C]. Proceedings of the 29th Conference on Very Large Data Bases, Berlin, Germany, 2003 81-92.
6Chen Y and Tu L. Density-based clustering for real-time stream data[C]. Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA, 2007: 133-142.
7Cao F, Ester M, Qian W, et al: Density-based clustering over an evolving data stream with noise[C]. Proceedings of the 16th SIAM International Conference on Data Mining, Maryland, USA, 2006: 328-339.
8Ackermann M R, M:rtens M, Raupach C, et al: StreamKM ++: a clustering algorithm for data streams[J]. Journal of Experimental Algorithmics, 2012, 17(1): 2-4.
9Arthur D and Vassilvitskii S. K-means++: the advantages of careful seeding[C]. Proceedings of the 2007 ACM-SIAM Symposium on Discrete Algorithm, New Orleans, USA, 2007: 1027-1035.
10Baraldi A and Blonda P. A survey of fuzzy clustering algorithms for pattern recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 1999, 29(6): 778-785.

引证文献13

1孙力娟,陈小东,韩崇,郭剑.一种新的数据流模糊聚类方法[J].电子与信息学报,2015,37(7):1620-1625. 被引量：22
2李南,钟一文.多代表点的数据流分类算法[J].小型微型计算机系统,2015,36(7):1535-1539. 被引量：2
3冯超,文益民,汤凌冰.基于主要特征抽取的重现概念漂移处理算法[J].数据采集与处理,2016,31(2):315-324. 被引量：5
4文益民,唐诗淇,冯超,高凯.基于在线迁移学习的重现概念漂移数据流分类[J].计算机研究与发展,2016,53(8):1781-1791. 被引量：15
5李南.基于聚类假设的数据流分类算法[J].模式识别与人工智能,2017,30(1):1-10. 被引量：11
6刘三民,刘涛,王忠群,修宇,刘余霞,孟超.融合分类器可信度的数据流集成分类[J].应用科学学报,2017,35(2):226-232. 被引量：1
7李艳琦.企业机密信息网络传输泄露优化检测仿真研究[J].计算机仿真,2017,34(5):385-388.
8吴陈,孙宏.一种对数据流进行聚类的改进算法[J].电子设计工程,2017,25(22):23-25. 被引量：1
9储光,胡学钢,张玉红.基于语义的文本数据流概念漂移检测算法[J].计算机工程,2018,44(2):24-30. 被引量：5
10安强强,张峰,李赵兴,张雅琼.基于机器学习的图像分割研究[J].自动化与仪器仪表,2018,0(6):29-31. 被引量：4

二级引证文献70

1梁敏渝.新一代背投电视大巡礼[J].实用影音技术,2000(3):22-26.
2冉娟,任琼.关于大数据存储过程中缺失信息检测仿真[J].计算机仿真,2018,35(12):451-455. 被引量：3
3殷秀颜,陈婕,郑学青,于姝.大型供电企业电力营销管理总体策略优化研究[J].自动化与仪器仪表,2019(2):39-42. 被引量：9
4刘竹松,陈洁.考虑数据不确定性的非均匀挖掘算法[J].华侨大学学报（自然科学版）,2016,37(3):308-311. 被引量：2
5毕安琪,王士同.基于Kullback-Leiber距离的迁移仿射聚类算法[J].电子与信息学报,2016,38(8):2076-2084. 被引量：17
6吴跃波,方捷.基于模糊ART神经网络的雷达信号测向数据聚类方法[J].电信技术研究,2016,0(3):27-35.
7曾蒸.异构网络信息中漂移数据流检测研究[J].计算机仿真,2017,34(3):357-360. 被引量：5
8胡闽.云平台海量数据中提取用户信息数学建模仿真[J].计算机仿真,2017,34(4):311-314. 被引量：2
9单冬红,史永昌,赵伟艇,张敬普.面向云数据安全存储的分段融合模糊聚类算法[J].计算机科学,2017,44(5):166-169. 被引量：9
10王军,刘三民,刘涛.面向概念漂移的数据流分类研究分析[J].绵阳师范学院学报,2017,36(5):80-89.

1陈小东,孙力娟,韩崇,郭剑.基于模糊聚类的数据流概念漂移检测算法[J].计算机科学,2016,43(4):219-223. 被引量：4
2钱亚冠,关晓惠.网络入侵检测系统中的漂移检测[J].电信科学,2015,31(3):67-73. 被引量：2
3郭躬德,李南,陈黎飞.一种适应概念漂移数据流的分类算法[J].山东大学学报（工学版）,2012,42(4):1-7. 被引量：2
4韩崇,袁颖珊,梅焘,耿慧玲.基于K-means的数据流离群点检测算法[J].计算机工程与应用,2017,53(3):58-63. 被引量：12
5汪成亮,庞栩,陆志坚,罗昌银.基于动态特征提取和神经网络的数据流分类研究[J].计算机应用,2010,30(6):1539-1542. 被引量：6
6胡秀丽.基于VSM和LDA模型相结合的微博话题漂移检测[J].兰州理工大学学报,2015,41(5):104-109. 被引量：6
7王峻,郑利惠.网络广告的点击欺诈分析[J].中小企业管理与科技,2008(23):59-60.
8凌军,曹阳,尹建华,徐国雄,黄天锡.一种新的网络入侵模式提取算法及其应用[J].计算机工程与应用,2003,39(13):51-54.
9马保雷,宋颖慧,刘亚维.基于概念漂移检测的自适应流量识别的研究[J].智能计算机与应用,2013,3(6):50-53. 被引量：1
10杨彬彬.基于贝叶斯混合集成的概念漂移数据流分类[J].计算机工程与设计,2014,35(10):3489-3492.

计算机研究与发展

2014年第4期

浏览历史

内容加载中请稍等...

一种基于混合模型的数据流概念漂移检测算法被引量：13

参考文献33

二级参考文献122

共引文献160

同被引文献88

引证文献13

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种基于混合模型的数据流概念漂移检测算法 被引量：13

参考文献33

二级参考文献122

共引文献160

同被引文献88

引证文献13

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种基于混合模型的数据流概念漂移检测算法被引量：13