基于半监督学习的数据流集成分类算法被引量：18

Semi-Supervised Learning Based Ensemble Classifier for Stream Data

导出

摘要已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性.针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类.实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5.33%.且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题. Stream data classification algorithms are mainly based on supervised learning strategy, and they need massive labeled data for training. These approaches are unpractical due to the high cost of acquiring labeled data in a real streaming environment. A semi-supervised learning based ensemble classifier （SEClass） is presented for stream data classification. SEClass utilizes both a small number of labeled data and a great number of unlabeled data to train an ensemble classifier, and unlabeled instances are classified using the majority voting strategy. The experimental results show that the accuracy of SEClass is 5.33% higher in average than that of the state-of-the-art supervised method using the same number of labeled data for training. And SEClass is suitable for high-dimensional high-speed massive stream data classification.

作者徐文华覃征常扬

机构地区清华大学信息科学技术学院计算机系清华大学信息科学技术学院软件学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2012年第2期292-299,共8页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金资助项目(No.60673024)

关键词属性权值概念漂移集成分类器同质性 K均值聚类半监督学习数据流分类 Attribute Weighting, Concept Drift, Ensemble Classifier, Homogeneity, K-meansClustering, Semi-Supervised Learning, Stream Data Classification

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Han Jiawei,Kamber M. Data Mining:Concepts and Techniques[M].Singapore,Singapore:Elsevier,2006.
2Wang Haixun,Fan Wei,Yu P S. Mining Concept-Drifting Data Streams Using Ensemble Classifiers[A].Washington DC USA,2003.226-235.
3Aggarwal C. Data Streams:Models and Algorithms[M].Berlin,Germany:Springer-Verlag,2007.
4Gehrke J,Ganti V,Ramakrishnan R. Boat-Optimistic Decision Tree Construction[A].Philadelphia USA,1999.169-180.
5Domingos P,Hulten G. Mining High-Speed Data Streams[A].Boston,USA,2000.71-80.
6Hulten G,Spencer L,Domingos P. Mining Time-Changing Data Streams[A].San Francisco,CA,USA,2001.97-106.
7Scholz M,Klinkenberg R. An Ensemble Classifier for Drifting Concepts[A].Portugal,Porto,2005.53-64.
8Aggarwal C C,Hat J,Wang Jianyong. A Framework for OnDemand Classification of Evolving Data Streams[J].IEEE Transactions on Knowledge and Data Engineering,2006,(05):577-589.
9Masud M M,Gao Jing,Khan L. A Practical Approach to Classify Evolving Data Streams:Training with Limited Amount of Labeled Data[A].Pisa,Italy,2008.929-934.
10Bifet A,Holmes G,Pfahringer B. New Ensemble Methods for Evolving Data Streams[A].France:Paris,2009.139-148.

同被引文献159

1李秋洁,茅耀斌,叶曙光,王执铨.代价敏感Boosting算法研究[J].南京理工大学学报,2013,37(1):19-24. 被引量：3
2张燕平,张铃,吴涛.机器学习中的多侧面递进算法MIDA[J].电子学报,2005,33(2):327-331. 被引量：26
3冯兴杰,黄亚楼.带约束条件的聚类算法研究[J].计算机工程与应用,2005,41(7):12-14. 被引量：12
4李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1240
5程昳,苗夺谦,冯琴荣.基于模糊粗糙集的粒度计算[J].计算机科学,2007,34(7):142-145. 被引量：4
6王国胤,李德毅,姚一豫,等.云模型与粒计算[M].北京:科学出版社,2012.
7王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：41
8王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246. 被引量：145
9Liao S H,Chu P H,Hsiao P Y. Data mining techniques and applications-A decade review from 2000 to 2011[J].{H}Expert systems with application,2012,(12):11303-11311.
10Read J,Bifet A,Holmes G,PfahRINGER B. Scalable and efficient multi-label classification for evolving data streams[J].{H}Machine Learning,2012,(1-2):243-272.

引证文献18

1任钊婷,王治和,杨晏.基于半监督学习的数据流混合集成分类算法[J].电脑知识与技术,2013(12):7770-7775. 被引量：1
2熊忠阳,周兴勤,张玉芳.针对标记数据不足的数据流分类器[J].计算机工程与应用,2015,51(6):124-128. 被引量：1
3邓大勇,徐小玉,黄厚宽.基于并行约简的概念漂移探测[J].计算机研究与发展,2015,52(5):1071-1079. 被引量：18
4孙雪,李昆仑,韩蕾,白晓亮.基于特征项分布的信息熵及特征动态加权概念漂移检测模型[J].电子学报,2015,43(7):1356-1361. 被引量：6
5刘志鹏,张国毅.一种新的雷达信号实时分选方法[J].航天电子对抗,2016,32(2):6-9. 被引量：3
6张任.基于模糊并行约简的模糊概念漂移探测[J].微型机与应用,2016,35(12):55-58. 被引量：2
7王伦文,冯彦卿,张铃.动态数据挖掘的构造性学习方法综述[J].小型微型计算机系统,2016,37(9):1953-1958. 被引量：5
8王中心,孙刚,王浩.面向不完全标记数据流的集成分类算法[J].阜阳师范学院学报（自然科学版）,2016,33(3):46-52. 被引量：1
9邓大勇,苗夺谦,黄厚宽.信息表中概念漂移与不确定性分析[J].计算机研究与发展,2016,53(11):2607-2612. 被引量：4
10李南.低代价的数据流分类算法[J].计算机系统应用,2016,25(12):187-192. 被引量：1

二级引证文献64

1刘月铮.测试代价敏感的F-粗糙集方法[J].电子技术（上海）,2021,50(4):61-63.
2梁敏渝.新一代背投电视大巡礼[J].实用影音技术,2000(3):22-26.
3冉娟,任琼.关于大数据存储过程中缺失信息检测仿真[J].计算机仿真,2018,35(12):451-455. 被引量：3
4张任.基于模糊并行约简的模糊概念漂移探测[J].微型机与应用,2016,35(12):55-58. 被引量：2
5王中心,孙刚,王浩.面向不完全标记数据流的集成分类算法[J].阜阳师范学院学报（自然科学版）,2016,33(3):46-52. 被引量：1
6邓大勇,苗夺谦,黄厚宽.信息表中概念漂移与不确定性分析[J].计算机研究与发展,2016,53(11):2607-2612. 被引量：4
7张任,王晖.基于三支决策粗糙集的概念漂移研究[J].微型机与应用,2016,35(22):54-60.
8邓大勇,黄厚宽.多粒度粗糙集的双层绝对约简[J].模式识别与人工智能,2016,29(11):969-975. 被引量：3
9苗夺谦,张清华,钱宇华,梁吉业,王国胤,吴伟志,高阳,商琳,顾沈明,张红云.从人类智能到机器实现模型——粒计算理论与方法[J].智能系统学报,2016,11(6):743-757. 被引量：62
10曾蒸.异构网络信息中漂移数据流检测研究[J].计算机仿真,2017,34(3):357-360. 被引量：5

1王志军.将Windows7更新集成到安装光盘中[J].电脑知识与技术（经验技巧）,2013(6):29-31.
2尹绍宏,张盼盼.一种基于概念重复性的数据流集成分类算法[J].计算机工程与应用,2016,52(12):80-84. 被引量：2
3钟智,胡荣耀,何威,罗?.基于图稀疏的自表达属性选择算法[J].计算机工程与设计,2016,37(6):1643-1648. 被引量：2
4王小平,李柳柏.基于AdaBoost算法的图像自动标注[J].西南大学学报（自然科学版）,2015,37(7):174-180. 被引量：6
5蒋芸,陈娜,明利特,周泽寻,谢国城,陈珊.基于Bagging的概率神经网络集成分类算法[J].计算机科学,2013,40(5):242-246. 被引量：43
6赵姝,吕靖,张燕平,张以文.不完整数据集的信息熵集成分类算法[J].模式识别与人工智能,2014,27(3):193-198. 被引量：6
7张育培,刘树慧.基于特征漂移的数据流集成分类方法[J].计算机工程与科学,2014,36(5):977-985. 被引量：5
8苏文龙.数据流集成分类器原理与研究进展[J].现代计算机,2013,19(9):12-15.
9周旋,孙力娟,黄海平,杨耀.一种基于隐私保护的无线传感网聚类方法研究[J].系统仿真学报,2013,25(10):2294-2299. 被引量：1
10张盼盼,尹绍宏.隐含概念漂移的不确定数据流集成分类算法[J].计算机工程与科学,2016,38(7):1510-1516. 被引量：3

模式识别与人工智能

2012年第2期

浏览历史

内容加载中请稍等...

基于半监督学习的数据流集成分类算法被引量：18

参考文献16

同被引文献159

引证文献18

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

基于半监督学习的数据流集成分类算法 被引量：18

参考文献16

同被引文献159

引证文献18

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

基于半监督学习的数据流集成分类算法被引量：18