基于少量类标签的概念漂移检测算法被引量：7

Concept drift detection method with limited amount of labeled data

下载PDF

导出

摘要传统的概念漂移数据流分类算法通常利用测试数据的真实类标来检测数据流是否发生概念漂移,并根据需要调整分类模型。然而,真实类标的标记需要耗费大量的人力、物力,而持续不断到来的高速数据流使得这种解决方案在现实中难以实现。针对上述问题,提出一种基于少量类标签的概念漂移检测算法。它根据快速KNNModel算法利用模型簇分类的特点,在未知分类数据类标的情况下,根据当前数据块不被任一模型簇覆盖的实例数目较之前数据块在一定的显著水平下是否发生显著增大,来判断是否发生概念漂移。在概念漂移发生的情况下,让领域专家针对那些少量的不被模型簇覆盖的数据进行标记,并利用这些数据自我修正模型,较好地解决了概念漂移的检测和模型自我更新问题。实验结果表明,该方法能够在自适应处理数据流概念漂移的前提下对数据流进行快速的分类,并得到和传统数据流分类算法近似或更高的分类精度。 Most existing algorithms for data streams mining utilize the true label of testing data to detect concept drift and adjust current model according to requirements. It is impractical in real-world applications as manual labeling of instances which arrive continuously at a high speed requires a lot of human and material resources. Therefore, a concept drift detection method with limited amount of labeled data was proposed. The proposed method used the model clusters generated by the fast KNNModel algorithm to classify instances. It was able to detect concept drift on whether the number of instances which were not covered by any model clusters on the current block increased remarkably at a certain significance level than that of the prior block. Once concept drift happened, the domain experts were asked to label a few instances which were not covered by the model clusters and these representative instances were used to update the current model. The experimental results show that, compared with the traditional classification algorithms, the proposed method not only adapts to the situation of concept drift, but also acquires approximate or better classification accuracy.

作者李南郭躬德陈黎飞

机构地区福建师范大学数学与计算机科学学院网络安全与密码技术福建省高校重点实验室(福建师范大学)

出处《计算机应用》 CSCD 北大核心 2012年第8期2176-2181,2185,共7页 journal of Computer Applications

基金国家自然科学基金资助项目(61070062 61175123) 福建高校产学合作科技重大项目(2010H6007)

关键词概念漂移数据流分类 KNNModel 模型簇 concept drift data stream classification KNNModel model cluster

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献31

1MASUD M M, GAO J, KHAN L, et al. Mining concept-drifting data stream to detect peer to peer botnet traffic[EB/OL].[2012-01-04]. http://www.utdallas.edu/~mmm058000/reports/UTDCS-05-08.pdf.
2CRUPI V, GUGLIEMINO E, MILAZZO G. Neural-network-based system for novel fault detection in rotating machinery[J].Journal of Vibration and Control, 2004, 10(8): 1137-1150.
3DELANY S J, CUNNINGHAM P, TSYMBAL A. A comparison of ensemble and case-base maintenance techniques for handing concept drift in spam filtering[C] // FLAIRS'2006: Proceedings of 19th International Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2006: 340-345.
4MASUD M M, GAO J, KHAN L, et al. A practical approach to classify evolving data streams: Training with limited amount of labeled data[C] // ICDM '08: Proceedings of the 2008 Eighth IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2008:929-934.
5WIDMER G,KUBAT M.Learning in the presence of concept drift and hidden contexts[J] .Machine Learning,1996,23(1):69-101.
6HO S-S, WECHSLER H. A martingale framework for detecting changes in data streams by testing exchangeability[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(12):2113-2127.
7HULTEN G, SPENCER L, DOMINGOS P. Mining time-changing data streams[C] // KDD '01: Proceedings of the seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2001: 97-106.
8DIETTERICH T G, BARKIRI G. Solving multiclass learning problems via error-correcting output codes[J].Artificial Intelligence Research, 1995, 2(1): 263-286.
9郭躬德,黄杰,陈黎飞.基于KNN模型的增量学习算法[J].模式识别与人工智能,2010,23(5):701-707. 被引量：26
10辛轶,郭躬德,陈黎飞,毕亚新.IKnnM-DHecoc:一种解决概念漂移问题的方法[J].计算机研究与发展,2011,48(4):592-601. 被引量：13

二级参考文献137

1滕月阳,唐焕文,张海霞.一种新的支持向量机增量学习算法[J].计算机工程与应用,2004,40(36):77-80. 被引量：7
2陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
3刘勇国,张伟,陈克非,廖晓峰.基于禁忌搜索的聚类簇数目估算算法[J].计算机科学,2005,32(1):168-171. 被引量：2
4杜奕,卢德唐,黄丰,王磊.一种面向高维符号数据的随机投影聚类算法[J].小型微型计算机系统,2006,27(9):1605-1607. 被引量：2
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
6姜斌,黎湘,王宏强,郭桂蓉.模式分类方法研究[J].系统工程与电子技术,2007,29(1):99-102. 被引量：6
7刘文军,谷云东,李洪兴.基于加权综合的分类算法(英文)[J].模糊系统与数学,2007,21(1):128-136. 被引量：2
8桑农,张荣,张天序.一类改进的最小距离分类器的增量学习算法[J].模式识别与人工智能,2007,20(3):358-364. 被引量：9
9Golab L,Ozsn M T.Issnes in data stream management[C]//Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data,California USA,June 2003.New York:ACM Press, 2003,32(2) :5-14.
10Zhu Yunyue,Shasha D.Efficient elastic burst detection in data streams[C]//Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data mining,Washington USA, August 2003.New York :ACM Press,2003,336-345.

共引文献75

1赵璐,何子况,朱秋煜.基于CNN和BIRCH聚类算法的类别增量学习[J].电子测量技术,2020(11):79-84. 被引量：1
2甄田甜,张玉红,李燕,王海平,胡学钢.一种基于UFFT的数据流分类器[J].合肥工业大学学报（自然科学版）,2011,34(1):65-70. 被引量：1
3张健沛,杨显飞,杨静.交叉验证容噪分类算法有效性分析及其在数据流上的应用[J].电子学报,2011,39(2):378-382. 被引量：3
4黄杰,郭躬德,陈黎飞.增量KNN模型的修剪策略研究[J].小型微型计算机系统,2011,32(5):845-849. 被引量：6
5李南,郭躬德.基于子空间集成的概念漂移数据流分类算法[J].计算机系统应用,2011,20(12):240-248. 被引量：5
6周靖,刘晋胜.基于分类贡献有效值的增量KNN模型修剪研究[J].计算机工程与应用,2012,48(3):185-188. 被引量：1
7李南,郭躬德.面向高速数据流的集成分类器算法[J].计算机应用,2012,32(3):629-633. 被引量：4
8于重重,田蕊,谭励,涂序彦.非平衡样本分类的集成迁移学习算法[J].电子学报,2012,40(7):1358-1363. 被引量：26
9郭躬德,李南,陈黎飞.一种适应概念漂移数据流的分类算法[J].山东大学学报（工学版）,2012,42(4):1-7. 被引量：2
10张伶卫,万文强.基于云计算平台的代价敏感集成学习算法研究[J].山东大学学报（工学版）,2012,42(4):19-23. 被引量：3

同被引文献58

1肖辉,胡运发.基于分段时间弯曲距离的时间序列挖掘[J].计算机研究与发展,2005,42(1):72-78. 被引量：59
2孙玉芬,卢炎生.流数据挖掘综述[J].计算机科学,2007,34(1):1-5. 被引量：36
3田新广,高立志,孙春来,张尔扬.基于系统调用和齐次Markov链模型的程序行为异常检测[J].计算机研究与发展,2007,44(9):1538-1544. 被引量：19
4FOLINO G,PIZZUTI C,SPEZZANO G. Mining distributed evolving data streams using fractal GP ensembles[A].{H}Berlin:Springer-Verlag,2007.160-169.
5GABER M M,YU P S. Classification of changes in evolving data streams using online clustering result deviation[EB/OL].http://citeseerx.ist.psu.edu/viewdoc/download?doi =10.1.1.89.6882&rep =repl &type =pdf,2012.
6KATAKIS I,TSOUMAKAS G,VLAHAVAS I. Tracking recurring contexts using ensemble classifiers:an application to email filtering[J].{H}Knowledge and Information Systems,2010,(3):371-391.
7KUNCHEVA L. Change detection in streaming multivariate data using likelihood detectors[J].{H}IEEE Transactions on Knowledge and Data Engineering,2011,(5):1175-1180.
8BAENA-GARCIA M,del CAMPO-AVILA J,FIDALGO R. Early drift detection method[A].{H}Berlin:Springer-Verlag,2006.77-86.
9ALIPPI C,ROVERI M. Just-in-time adaptive classifiers,Part Ⅰ:detecting nonstationary changes[J].{H}IEEE Transactions on Neural Networks,2008,(7):1145-1153.
10ALIPPI C,BORACCHI G,ROVERI M. An effective just-in-time adaptive classifier for gradual concept drifts[A].Piscataway:IEEE Press,2011.1675-1682.

引证文献7

1许冠英,韩萌,王少峰,贾涛.数据流集成分类算法综述[J].计算机应用研究,2020,37(1):1-8. 被引量：11
2刘茂,张东波,赵圆圆.基于交叠数据窗距离测度概念漂移检测新方法[J].计算机应用,2014,34(2):542-545. 被引量：5
3魏亚红,倪建成.一种基于增量式BP神经网络的概念漂移数据流分类算法[J].电子技术（上海）,2015,0(3):21-25. 被引量：1
4杨英杰,刘帅,常德显.一种基于关系熵和J量值的网络事件关联模式漂移检测方法[J].计算机科学,2016,43(1):259-263. 被引量：2
5李南.基于聚类假设的数据流分类算法[J].模式识别与人工智能,2017,30(1):1-10. 被引量：11
6杨姣,高仲合,王来花,韦锦涛.数据流聚类挖掘算法优化研究[J].曲阜师范大学学报（自然科学版）,2018,44(3):38-40. 被引量：1
7沈少朋,马洪江,张智恒,周相兵,朱春满,温佐承.多元时序上状态转移模式的三支漂移检测[J].计算机科学,2022,49(4):144-151.

二级引证文献31

1梁敏渝.新一代背投电视大巡礼[J].实用影音技术,2000(3):22-26.
2冉娟,任琼.关于大数据存储过程中缺失信息检测仿真[J].计算机仿真,2018,35(12):451-455. 被引量：3
3李少波,魏中贺,孟伟.基于距离的数据流在线检测算法研究[J].计算机应用研究,2015,32(12):3579-3581. 被引量：6
4曾蒸.异构网络信息中漂移数据流检测研究[J].计算机仿真,2017,34(3):357-360. 被引量：5
5王军,刘三民,刘涛.面向概念漂移的数据流分类研究分析[J].绵阳师范学院学报,2017,36(5):80-89.
6陈虹君,罗福强,赵力衡,李瑶.大数据下网络资源信息丢失优化识别仿真[J].计算机仿真,2017,34(9):358-361. 被引量：4
7费宏慧.导构网络中用户信息资源优化检测方法研究[J].计算机仿真,2017,34(12):318-320. 被引量：2
8印世杰,陈作炳,朱梦佳,项勤.粘稠物料烘干机干燥过程优化仿真研究[J].计算机仿真,2017,34(12):383-388. 被引量：1
9罗云松,吕佳.结合密度峰值优化模糊聚类的自训练方法[J].重庆师范大学学报（自然科学版）,2019,36(2):94-100. 被引量：8
10郭锋锋.大数据背景下引入多重选择机制分类挖掘带概念漂移的高速数据流优化算法[J].九江学院学报（自然科学版）,2019,34(3):76-77.

1柳斌,李之棠,涂浩.基于半监督学习的应用流分类方法[J].微电子学与计算机,2010,27(8):24-26. 被引量：1
2胡光岷,李乐民.流分类算法研究综述[J].通信技术,2002,35(1X):52-54. 被引量：2
3赵国锋,闫亮,王影.快速流分类算法的研究[J].数字通信,2010,37(1):37-42. 被引量：1
4冯林,姚远,陈沣,金博.一种基于MapReduce的动态数据流分类算法[J].大连理工大学学报,2014,54(4):461-468.
5黄树成,刘悦.一种抗噪的动态数据流分类算法[J].江苏科技大学学报（自然科学版）,2016,30(3):281-285. 被引量：3
6毕晓冬.基于流分类技术的MPLS协议数据转发研究[J].山东师范大学学报（自然科学版）,2006,21(2):43-45. 被引量：1
7姚兴苗,胡光岷,李乐民.一种采用按值分支树的多维流分类算法[J].电子与信息学报,2004,26(9):1413-1419.
8翁谦,陈国龙,刘延华,郭文忠.基于网络处理器的快速流分类技术研究[J].福州大学学报（自然科学版）,2009,37(2):184-188.
9佟海奇,包秀国,庹宇鹏,袁庆升,叶建伟.基于维度分解的哈希多维快速流分类算法[J].计算机工程,2015,41(8):55-60.
10徐花芬,毛国君,吴静.分布式数据流分类关键技术研究[J].华北科技学院学报,2015,12(4):119-124. 被引量：2

计算机应用

2012年第8期

浏览历史

内容加载中请稍等...

基于少量类标签的概念漂移检测算法被引量：7

参考文献31

二级参考文献137

共引文献75

同被引文献58

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于少量类标签的概念漂移检测算法 被引量：7

参考文献31

二级参考文献137

共引文献75

同被引文献58

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于少量类标签的概念漂移检测算法被引量：7