基于多分类器集成的数据流分类方法被引量：1

Ensemble Classifier Based Data Stream Classifying

下载PDF

导出

摘要概念漂移给数据流挖掘工作带来了很大阻碍。经典的SEA算法通过动态裁剪集成分类器的方式有效地捕获到概念漂移。其裁剪集成分类器的策略是直接删除掉一个权值最低的基础分类器,这意味着算法抛弃了一个已经学习了的概念,当该概念再出现时还需再学习,导致算法效率的降低。现提出了一种能够提取旧概念的算法(ECRRC),并给出了存储和提取概念的具体方法。面对概念的重复出现,ECRRC不用再学习就能够完成数据流分类。实验结果表明,ECRRC能够提高数据流分类效率。 Concept drift is a big obstacle in the field of mining stream data. By dynamic modifying the ensemble classifier,SEA can effectively catch concept drift for mining stream data. The method of SEA modifying the ensemble classifier is direct dropping a base classifier of the lowest weight. That means the algorithm abandon a learned concept,but the algorithm will waste time to learn the abandoned concept,as a result this leads to a low-level effective algorithm. A new algorithm ECRRC（Ensemble Classifiers Retrieving Repeated Concept ） with the ability of retrieving the old concept is proposed to reuse the old classifier. Facing the concept repeating,ECRRC need not learn again for mining stream data. Besides the method of storing and retrieving the concept is presented. The experimental results show that the algorithm raises classifying data stream efficiency.

作者王锡文贾银山

机构地区辽宁石油化工大学计算机与通信工程学院

出处《科学技术与工程》 2010年第18期4521-4524,4529,共5页 Science Technology and Engineering

关键词数据流分类集成分类器概念漂移 classify stream data ensemble classifier concept drift

分类号 TP393.02 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Han J,Kamber M.Data mining:concept and techniques.2ed.San Fransisco,CA.Higher Education Press,2001:1-7.
2Tan Pang ning,Sreinbach M,Kumar V.数据挖掘导论.范明,范宏建,译.北京:北京大学出版社,2006.
3王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：40
4Widmer G,Kubat M.Learning in the presence of concept drift and hidden contexts.Machine Learning,1996;23(1):69-101.
5金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
6史金成,胡学钢.数据流挖掘研究[J].计算机技术与发展,2007,17(11):11-14. 被引量：6
7Domingos P,Hulten G.Mining high-speed data streams.Proc of ACM SIGKDD Inter Conference Knowledge Discovery in Databases (KDD'00),2000:71-80.
8Wang H,Yin J,Pei J.Suppressing model over-fitting in mining concept-drifting data streams.SIGKDD'06.Philadelphia.[s.n.] ,2006:736-741.
9Street W H,Kim Y S.A streaming ensemble algorithm for large-scale classification.In:Proceeding of the 2005 ACM Symposium on Applied Computing.New Mexico,USA:2005:537-577.

二级参考文献92

1杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
2倪志伟,黄玲,李锋刚,忻凌.数据流管理与挖掘研究[J].合肥工业大学学报（自然科学版）,2005,28(9):1157-1162. 被引量：5
3张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
4刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
5朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：50
6钱江波,徐宏炳,董逸生,王永利,刘学军,杨雪梅.基于最小生成树的数据流窗口连接优化算法[J].计算机研究与发展,2007,44(6):1000-1007. 被引量：3
7Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data streams. In: Popa L, ed. Proc. of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002. 1～16.
8Terry D, Goldberg D, Nichols D, Oki B. Continuous queries over append-only databases. SIGMOD Record, 1992,21(2):321-330.
9Avnur R, Hellerstein J. Eddies: Continuously adaptive query processing. In: Chen W, Naughton JF, Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data. Dallas: ACM Press, 2000. 261～272.
10Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data Engineering Bulletin, 2000,23(2):7-18.

共引文献202

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4刘二涛.企业电子商务中的客户数据挖掘[J].知识经济,2008(4):126-127. 被引量：1
5秦林新,刘奇志.一种乱序数据流上的偏倚抽样算法[J].计算机研究与发展,2011,48(S3):298-303.
6张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
7金澈清,崇志宏,周傲英.一种实时监控最近邻的近似算法[J].计算机科学与探索,2007,1(2):146-159.
8杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
9杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
10刘赏,黄亚楼,倪维健.流数据聚类模型变化检测策略[J].计算机工程与应用,2006,42(5):15-18.

同被引文献28

1李秋洁,茅耀斌,叶曙光,王执铨.代价敏感Boosting算法研究[J].南京理工大学学报,2013,37(1):19-24. 被引量：3
2王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：40
3黄启春,刘仰光,何钦铭.基于支持向量机的增量式算法[J].浙江大学学报（工学版）,2008,42(12):2121-2126. 被引量：3
4刘伟,张化祥.数据集动态重构的集成迁移学习[J].计算机工程与应用,2010,46(12):126-128. 被引量：5
5吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：160
6张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410. 被引量：136
7王爱平,万国伟,程志全,李思昆.支持在线学习的增量式极端随机森林分类器[J].软件学报,2011,22(9):2059-2074. 被引量：56
8李秋洁,茅耀斌,王执铨.基于Boosting的不平衡数据分类算法研究[J].计算机科学,2011,38(12):224-228. 被引量：16
9徐文华,覃征,常扬.基于半监督学习的数据流集成分类算法[J].模式识别与人工智能,2012,25(2):292-299. 被引量：18
10尹光,朱玉全,陈耿.一种新的分类器选择集成算法[J].计算机工程,2012,38(8):167-169. 被引量：3

引证文献1

1王军,刘三民,刘涛.面向概念漂移的数据流分类研究分析[J].绵阳师范学院学报,2017,36(5):80-89.

1于丽娜,杨济民,陈冲.简化椭圆曲线加密算法的研究[J].山东师范大学学报（自然科学版）,2015,30(2):59-61.
2汪彩梅,项响琴.SEA算法及其在椭圆曲线密码体制中的应用[J].科教文汇,2008(13):196-196. 被引量：1
3人类记忆将实现上传和下载[J].电脑编程技巧与维护,2013(13):4-4.
4李俊芳,崔建双.椭圆曲线的点群阶及其阶的算法[J].信息安全与通信保密,2005,27(3):120-121. 被引量：1
5顾红艳.AutoCAD非图形特征信息的存储和提取方法[J].辽宁师专学报（自然科学版）,2006,8(1):40-41.
6郝建生.掘进机状态监测的数据采集器设计[J].电子世界,2014(11):143-144.
7李强.BLOB数据类型在资料存储和提取中的应用[J].经纬天地,2015(1):54-57.
8马宏伟,田丽,徐进.校园网络环境下学生管理信息系统的设计与实现[J].山东建筑工程学院学报,2001,16(4):43-45. 被引量：10
9杨宇航.计算机数据备份与恢复的技巧策略[J].知识文库,2016,0(4):201-201. 被引量：1
10满足“一切需求”[J].网络运维与管理,2014,0(19):11-11.

科学技术与工程

2010年第18期

浏览历史

内容加载中请稍等...

基于多分类器集成的数据流分类方法被引量：1

参考文献9

二级参考文献92

共引文献202

同被引文献28

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多分类器集成的数据流分类方法 被引量：1

参考文献9

二级参考文献92

共引文献202

同被引文献28

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多分类器集成的数据流分类方法被引量：1