数据流分类中的增量特征选择算法被引量：5

Incremental feature selection algorithm for data stream classification

下载PDF

导出

摘要概念流动的出现及数据的高维性增加了数据流特征选择的复杂性。信息增益是最有效的特征选择算法之一,但计算量大。对信息增益做了等价替换,提出一种基于改进信息增益的混合增量特征选择(IFS)算法。该算法首先利用与分类器无关的评价函数选出候选特征集合,然后将分类器作用于候选特征集合,利用分类精度作为评价标准去选择特征子集,在遇到概念漂移时重新选择特征子集。通过在超平面数据集和UCI数据集上的实验,表明基于IFS算法的分类器能够很快地适应概念漂移,并且比基于全部特征的分类算法有更高的精度。 The complexity of feature selection for real-world data stream will increase because of high-dimensional data and concept drifting. Information gain is one of the most effective feature selections, but its computation is too huge. In order to deal with the problem, the authors proposed an incremental feature selection algorithm based on improved information gain, named IFS. Firstly, the algorithm selected candidate feature set by using independent evaluation function; secondly, feature set was selected with classifer role in candidate feature set. Finally, it selected feature set again while encountering concept drifting. The experiment was operated on moving hyperplane data set and UCI data set. The experimental results show that the proposed approach can adapt to the concept drifting with higher speed and works much better than non-feature selection algorithms.

作者李敏王勇蔡立军

机构地区西北工业大学理学院西北工业大学计算机学院

出处《计算机应用》 CSCD 北大核心 2010年第9期2321-2323,2328,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60873196)

关键词数据流分类信息增益增量特征选择概念漂移 data stream classification information gain Incremental Feature Selection （ IFS） concept drifting

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1GERHARD W, MIROSEAV K. Learning in the presence of concept drift and hidden contexts [J]. Machine Learning, 1996, 23(1) : 69 -101.
2陈友,程学旗,李洋,戴磊.基于特征选择的轻量级入侵检测系统[J].软件学报,2007,18(7):1639-1651. 被引量：78
3YUE XUN, MO HONGWEI, CHI ZHONGXIAN. Immune-inspired incremental feature selection technology to data streams [ J]. Applied Soft Computing, 2008, 8(2): 1041-1049.
4KATAKIS I, TSOUMAKAS G, VLAHAVAS I P. On the utility of incremental feature selection for the classification of textual data streams [ C]//PCI 2005: Proceedings of the 10th Panhellenic Conference on Informatics, LNCS 3746. Berlin: Springer, 2005: 338- 348.
5KATAKIS I, TSOUMAKAS G, VLAHAVAS I. Dynamic feature space and incremental feature selection for the classification of textual data streams [ C]// European Conference on Machine Learning/ Practice of Knowledge Discovery in Databases - 2006 International Workshop on Knowledge Discovery from Data Streams. Berlin: [ s.n.], 2006: 107-116.
6LIU H, YU L. Towards integrating feature selection algorithms for classification and clustering [ J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(4): 491-502.
7PARK J S, SHAZZAD K M, KIM D S. Toward modeling lightweight intrusion detection system through correlation-based hybrid feature selection [ C]//CISC 2005: Proceedings of the First SKLOIS Conference on Information Security and Cryptology, LNCS 3822. Berlin: Springer, 2005:279 - 289.
8YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization [ C]//Proceedings of the Fourteenth International Conference on Machine Learning. San Francisco, CA: Motgan Kanfmann Publishers, 1997:412 -420.
9HAN JIAWEI, MICHELINE K. Data mining concepts and techniques [ M]. 2nd ed. Beijing: China Machine Press, 2007.
10LI FEIXIONG, LIU QUAN. An improved algorithm of decision trees for stream data based on VFDT [ C]//2008 International Symposium on Information Science and Engineering. Shanghai: [ s. n. ], 2008:597-600.

二级参考文献1

1饶鲜,董春曦,杨绍全.基于支持向量机的入侵检测系统[J].软件学报,2003,14(4):798-803. 被引量：135

共引文献77

1张立伟,戴磊,侯一凡.一种轻量级入侵检测技术[J].计算机科学,2012,39(S3):36-38. 被引量：3
2陈友,沈华伟,李洋,程学旗.一种高效的面向轻量级入侵检测系统的特征选择算法[J].计算机学报,2007,30(8):1398-1408. 被引量：46
3龙灿.网络安全技术现状与趋势研究[J].福建电脑,2008,24(8):38-39. 被引量：3
4田俊峰,黄红艳,常新峰.特征选择的轻量级入侵检测系统[J].计算机工程与应用,2009,45(4):111-114. 被引量：2
5李文法,陈友,段洣毅,孙春来.基于GATS-C4．5的IP流分类[J].计算机科学,2009,36(4):68-72. 被引量：3
6倪丽萍,倪志伟,吴昊,叶红云.基于分形维数和蚁群算法的属性选择方法[J].模式识别与人工智能,2009,22(2):293-298. 被引量：6
7李文法,段洣毅,刘悦,孙春来.一种面向流分类的特征选择算法[J].中文信息学报,2009,23(3):51-57. 被引量：1
8史志才.高速网络环境下的自适应入侵检测方法研究[J].计算机工程与应用,2009,45(17):88-90. 被引量：17
9李文法,段洣毅,陈友,程学旗.基于MRMHC-LSVM的IP流分类[J].高技术通讯,2009,19(6):564-571. 被引量：1
10刘永芬,郭躬德,黄杰.新超球面SVM方法及其在入侵检测中的应用[J].微计算机信息,2009,25(33):78-79.

同被引文献56

1赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
2富春岩,葛茂松.一种能够适应概念漂移变化的数据流分类方法[J].智能系统学报,2007,2(4):86-91. 被引量：5
3Widmer G Kubat M. Learning in the presence of concept drift and hidden contexts.Machine Learning,1996,23(l): 69-101.
4Tsymbal A, Pechenizkiy M, Cunningham P, et al. Dynamic integration of classifiers for handling concept drift. Information Fusion, 2008,9(1):56-68.
5Hanen LK, Salamon E Neutral network ensemble. IEEE Trans. on Pattern Anaylsis and Machine Intelligence, 1990, 12(10):993 -1001.
6Street W, Kim Y, A streaming ensemble algorithm (SEA) for large-scale classification. Proc. of 7th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining KDD-2001. New York: ACM Press, 2001:77-382.
7Wang H, Fan W, Yu P, et al. Mining concept drifting data streams using ensemble classifiers. Proc. of 9th International Conference on Knowledge Discovery and Data Mining, Washington DC, 2003:226-235.
8Agrawal R, Gehrke J, Gunopulos, et al. Automatic subspace clustering of high dimensional data for data mining applications. Proc. of ACM SIGMOD Conference on Management of Data, New York: ACM Press, 1998.94-105.
9Yang Q, Wu X. 10 Challenging problems in data mining research. Journal of Information Technology and Decision Making, 2006,5(4):597-604.
10Guo G Wang H, Bell DA, et al, Using KNN Model for Automatic Text Categorization. Soft Computing. 2006, 10(5):423-430.

引证文献5

1李南,郭躬德.基于子空间集成的概念漂移数据流分类算法[J].计算机系统应用,2011,20(12):240-248. 被引量：5
2张杰,赵峰.流数据概念漂移的检测算法[J].控制与决策,2013,28(1):29-35. 被引量：16
3琚春华,邹江波,魏建良,张华.基于情景特征的前馈动态集成分类器[J].管理工程学报,2013,27(4):119-125.
4王晓,罗永莲.基于决策树与单元距离抽取新闻网页内容[J].晋中学院学报,2019,36(3):66-71.
5周丰丰,王倩,董广宇.认知障碍脑功能磁共振图像的孪生网络特征工程算法[J].吉林大学学报（信息科学版）,2024,42(1):45-50.

二级引证文献21

1张明光.如何开展县(市,区)"三讲"教育巡视组工作[J].理论学习（浙江）,2000(3):28-29.
2李南,郭躬德,陈黎飞.基于少量类标签的概念漂移检测算法[J].计算机应用,2012,32(8):2176-2181. 被引量：7
3张娅萍.校园侵权行为的治理研究[J].人力资源管理,2013(8):156-156.
4张娅萍.高校大学生网络舆情的特征及引导策略研究[J].知识经济,2013(15):175-175. 被引量：2
5张娅萍.房地产企业信息化管理模式创新分析[J].中国科技纵横,2013(15):305-305.
6张娅萍.“棱镜门”事件与政府网络监管约束之立法探讨[J].民营科技,2013(9):243-243.
7兰天,郭躬德.基于RSKNN分类改进算法[J].计算机系统应用,2013,22(12):85-92.
8卢伟胜,郭躬德,严宣辉,陈黎飞.SMwKnn:基于类别子空间距离加权的互k近邻算法[J].计算机科学,2014,41(2):166-169. 被引量：7
9刘茂,张东波,赵圆圆.基于交叠数据窗距离测度概念漂移检测新方法[J].计算机应用,2014,34(2):542-545. 被引量：5
10陈雪云,卢伟胜.GSwMKnn:基于类别基尼系数子空间的加权互K近邻算法[J].计算机系统应用,2014,23(2):137-141. 被引量：1

1王锋,魏巍.缺失数据数据集的组增量式特征选择[J].计算机科学,2015,42(7):285-290. 被引量：6
2张凤军,刘华明,孙春华,任秉银.面向并行CAD/CAM集成的特征建模技术的研究[J].机械设计,2000,17(1):35-38. 被引量：11
3李楠,谢娟英.基于邻域粗糙集的增量特征选择[J].计算机技术与发展,2011,21(11):149-152. 被引量：7
4王方杰.基于分形理论的IFS算法的实现[J].科技信息,2009(32):224-225.
5古天龙,李风英.一类Petri网调度问题的符号求解技术[J].系统仿真学报,2005,17(z1):148-150. 被引量：2
6熊忠阳,付玲玲,张玉芳.文本分类中基于概念映射的二次特征降维方法[J].计算机工程与应用,2012,48(1):166-169. 被引量：1
7程帅,孙俊喜,曹永刚,赵立荣.增量深度学习目标跟踪[J].光学精密工程,2015,23(4):1161-1170. 被引量：17
8谢玓,尚学群,王淼,张延园.解决数据样本不平衡性的频繁子图挖掘算法[J].计算机工程与应用,2008,44(36):146-149. 被引量：5
9古思山,蔡树彬,李师贤.一种AOP方面的代数语义[J].计算机科学与探索,2011,5(10):932-941.
10彭复员,杨国良,李旭涛.基于增量特征和局部奇异性的水下图像分割法[J].华中科技大学学报（自然科学版）,2008,36(2):82-84. 被引量：1

计算机应用

2010年第9期

浏览历史

内容加载中请稍等...

数据流分类中的增量特征选择算法被引量：5

参考文献11

二级参考文献1

共引文献77

同被引文献56

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

数据流分类中的增量特征选择算法 被引量：5

参考文献11

二级参考文献1

共引文献77

同被引文献56

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

数据流分类中的增量特征选择算法被引量：5