一种基于数据不确定性的概念漂移数据流分类算法被引量：7

Data Stream Classification with Data Uncertainty and Concept Drift

下载PDF

导出

摘要隐私保护、数据丢失、网络错误等原因导致网络中大量数据存在不确定性.数据流系统中数据连续不断到达系统,故不能一次性获得全部数据,此外数据的概念特征经常发生变化.针对这种情况,构建了一个增量式分类模型来处理数据具有不确定性的隐含概念漂移的数据流分类问题.该模型采用非常快速决策树算法,在学习阶段使用霍夫丁边界理论迅速构建能处理数据不确定性的决策树模型;在分类阶段将加权贝叶斯分类器应用于决策树的叶子节点,以提高不确定数据分类的准确率;采用滑动窗口技术和替换树来处理数据流中的概念漂移现象.实验表明,无论对人工数据还是实际数据,该算法均有较高的分类准确率和执行效率. Data in the Web have much uncertainty because of privacy protection, data loss, network errors, etc. In a data stream system, data arrive continuously and therefore one cannot obtain all data in any time. In addition, the concept drift often occurs in the data stream. This paper constructs an incremental classification model to deal with data stream classification with data uncertainty and concept drift. In this model, a fast decision tree algorithm is used. It can analyze uncertain information quickly and effectively both in the learning stage and the classification stage. In the learning stage, it uses the Hoeffding bound theory to quickly construct a decision tree model for the data stream with data uncertainty. In the classification stage, it uses a weighted Bayes classifier in the tree leaves to improve precision of the classification. The use of a sliding window to replace the tree ensures that the algorithm can deal with concept drift. Experimental results show that the algorithm has good classification accuracy and execution efficiency both on artificial and real data.

作者吕艳霞王翠容王聪苑迎 LU Yan-xia WANG Cui-rong WANG Cong YUAN Ying(College of Computer Science and Engineering, Northeastern University, Shenyang 110819, China School of Computer and Communication Engineering, Northeastern University at Qinhuangdao, Northeastern University, Qinhuangdao 066004, Hebei Province, China)

机构地区东北大学计算机科学与工程学院东北大学秦皇岛分校计算机与通信工程学院

出处《应用科学学报》 CSCD 北大核心 2017年第5期559-569,共11页 Journal of Applied Sciences

基金国家自然科学基金(No.61300195) 河北省自然科学基金(No.F2014501078 No.F2016501079)资助

关键词数据不确定性数据流决策树分类概念漂移 data uncertainty, data stream, decision tree, classification, concept drift

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1吕艳霞,王翠荣,王聪,于长永.大数据环境下的不确定数据流在线分类算法[J].东北大学学报（自然科学版）,2016,37(9):1245-1249. 被引量：9
2刘三民,孙知信,刘涛.基于样本不确定性的增量式数据流分类研究[J].小型微型计算机系统,2015,36(2):193-196. 被引量：9

二级参考文献16

1Tsang S,Kao B,Yip K Y ,et al. Decision trees for uncertaindata[J]. Knowledge &Data Engineering IEEE Transactions,2 0 0 9 ,2 3 (1 ):64 -7 8.
2Hulten G , Spencer L , Domingos P. Mining time changingdata stre a m s[C]// Process of the Seventh ACM SIGKDDInternational Conference on Knowledge Discovery and DataMining. [S .l.] : ACM, 2001:97 -106.
3Qin B , Xia Y , Li F. DTU: a decision tree for uncertain data[J]. Advances in Knowledge Discovery and Data Mining,2009,5476:4 -1 5 .
4Gao C , Wang J. Direct mining of discriminative patterns forclassifying uncertain data [C] / / Proceedings of the 16thACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining. [S. l.] ACM,2010:861 -870.
5Cao K Y , Wang G , Han D. An algorithm for classificationover uncertain data based on extreme learning machine[J].Neurocomputing,2016,174:194 -202.
6Liang C , Zhang Y , Shi P , et al. Learning very fast decisiontree from uncertain data streams with positive and unlabeledsamples [J]. Information Sciences, 2012, 213 ( 23 ):50 -6 7 .
7Pan S, Wu K , Zhang Y , et al. Classifier ensemble foruncertain data stream classification [J]. Lecture Notes inComputer Science,2010,6118( 1) :488 -495.
8Hoeffding W. Probability inequalities for sums of boundedrandom variables [J]. Journal o f the American StatisticalAssociation,1962,5 ( ( 301): 13 -3 0 .
9He J , Zhang Y , Shi X L P. Learning naive Bayes classifiersfrom positive and unlabelled examples with uncertainty[J].International Journal o f Systems Science, 2012, 43 ( 10 ) :1805 -1825.
10Liang C , Zhang Y, Hu P S Z. Learning accurate very fastdecision trees from uncertain data stream [J]. InternationalJournal o f Systems Science,2015,4 6 (1 6 ) :3032 - 3050.

共引文献16

1刘三民,王忠群,刘涛,修宇.融合互近邻降噪的动态数据流分类研究[J].计算机科学与探索,2016,10(1):36-42. 被引量：5
2王中心,孙刚,王浩.面向噪音和概念漂移数据流的集成分类算法[J].小型微型计算机系统,2016,37(7):1445-1449. 被引量：8
3吕艳霞,王翠荣,王聪,于长永.大数据环境下的不确定数据流在线分类算法[J].东北大学学报（自然科学版）,2016,37(9):1245-1249. 被引量：9
4王军,刘三民,刘涛.面向概念漂移的数据流分类研究分析[J].绵阳师范学院学报,2017,36(5):80-89.
5韩天鹏,白玲玲.基于数据挖掘的食品零售价格分类研究[J].韶关学院学报,2017,38(9):31-36.
6李莎莎,崔铁军,马云东.基于云模型和SFT的可靠性数据不确定性评价[J].计算机应用研究,2017,34(12):3656-3659. 被引量：4
7赵秦怡,黑韶敏.基于期望语义距离的不确定k近邻分类方法[J].大理大学学报,2017,2(12):16-20. 被引量：1
8袁泉,郭江帆.新型含噪数据流集成分类的算法[J].计算机应用,2018,38(6):1591-1595. 被引量：24
9刘俊杰,张昕,杨乐,韩东红.基于DELM的不确定数据流分类算法[J].计算机技术与发展,2019,29(3):101-105. 被引量：1
10秦渤.水质在线监测中的大数据应用探讨[J].低碳世界,2019,9(6):30-31. 被引量：2

同被引文献44

1闫莺,金澈清,曹锋,汪恒杰,周傲英.多数据流上共享窗口连接查询的降载策略[J].计算机研究与发展,2004,41(10):1836-1841. 被引量：4
2蔡涵.云计算与云存储技术的企业应用分析[J].计算机光盘软件与应用,2011(6):17-17. 被引量：2
3孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：312
4王刚,王珏,杨善林.电子商务中基于非均衡数据分类和词性分析的意见挖掘研究[J].情报学报,2014,33(3):313-325. 被引量：10
5杨晓明,张翔,王佳昊,吴劲,秦志光.基于有限自动机的RFID入侵检测[J].电子科技大学学报,2014,43(5):775-780. 被引量：4
6魏霞,李国徽.基于直方图的数据流降载策略研究[J].华中科技大学学报（自然科学版）,2014,42(9):24-27. 被引量：2
7刘三民,孙知信,刘涛.基于样本不确定性的增量式数据流分类研究[J].小型微型计算机系统,2015,36(2):193-196. 被引量：9
8赵强利,蒋艳凰,卢宇彤.具有回忆和遗忘机制的数据流挖掘模型与算法[J].软件学报,2015,26(10):2567-2580. 被引量：15
9张慧萍,贺红艳,陈小娟.大数据的分层分类优化识别仿真研究[J].计算机仿真,2015,32(10):463-466. 被引量：3
10钟龙申,高学军,王振友.一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用[J].数学的实践与认识,2015,45(19):198-206. 被引量：12

引证文献7

1魏葆春,甘发旺.物联网多层设备信息通信数据分类识别仿真[J].计算机仿真,2019,36(1):425-428. 被引量：3
2丁春晖.关于大数据网络中数据分类优化识别研究[J].计算机仿真,2018,35(8):307-310. 被引量：3
3童威,黄启萍.优化BP神经网络在非均衡数据分类中的应用[J].长春工业大学学报,2019,40(3):263-269. 被引量：2
4刘三民,刘余霞.基于实例迁移的数据流分类挖掘方法[J].信息与控制,2019,48(3):380-384. 被引量：8
5杜恒,杨俊成.基于拉普拉斯回归主动学习的大数据流分类算法[J].计算机应用与软件,2019,36(12):273-281. 被引量：7
6王顺,李振星,连增申,曾国荪,丁春玲.针对具有稀疏性的流式大数据卸载方法[J].同济大学学报（自然科学版）,2020,48(2):276-286. 被引量：1
7姚蕾.基于物理资源的自服务数据库技术革新及发展探讨[J].中国教育技术装备,2021(15):30-31.

二级引证文献24

1张楚.集体法益视野下获取公民个人信息行为的入罪限度研究[J].刑法论丛,2021(1):250-274. 被引量：6
2沈妍.大数据网络中数据分类优化识别分析[J].技术与市场,2019,26(6):192-192. 被引量：1
3许绍炎.基于波形和数据流的汽车发动机电控系统故障诊断实验研究[J].自动化与仪器仪表,2019,0(11):41-43. 被引量：7
4朱懋强.大数据管理分析中的分类法[J].电子技术与软件工程,2020(10):184-185.
5程鲁明,肖菊香.oracle数据库批量数据无损迁移技术研究[J].电子设计工程,2020,28(18):34-37. 被引量：4
6王金焱.分布式网络混合云数据分类捕获方法研究[J].安阳工学院学报,2020,19(6):59-62. 被引量：1
7熊菊霞,吴尽昭.高维数据流异常节点动态跟踪仿真研究[J].计算机仿真,2020,37(10):445-449. 被引量：3
8马文,田园.基于聚类方法的工业电气设备大数据特征识别[J].计算机技术与发展,2020,30(11):190-194. 被引量：3
9陈波红,张婷.高维不确定数据三支决策聚类方法研究[J].计算机仿真,2020,37(12):295-298.
10杜义浩,刘兆军,付子豪,张园园,任娜,陈杰,谢平.基于混合迁移学习的运动想象分类算法研究及其在脑机接口中的应用[J].计量学报,2021,42(5):629-637. 被引量：4

1谢林川.数据文件的恢复[J].科教导刊（电子版）,2015,0(27):156-156.
2孙宗明.某些线性变换的特征值与某些矩阵的特征值[J].泰安师专学报,2000,22(6):1-5.
3徐勇.数据分析和图书馆数据化[J].中小企业管理与科技,2017,1(23):112-113.
4Otto Neuer.充分挖掘大数据潜力大数据指出了医药工业未来发展的方向[J].实验与分析,2017(3):26-27.
5苏静,裘晓峰,李书芳,刘道伟,张春红.一种基于原型学习的自适应概念漂移分类方法[J].北京邮电大学学报,2017,40(3):43-50.
6崔琳章.关于矩阵方程A^2=J解的分类问题[J].哈尔滨建筑工程学院学报,1989,22(1):126-130.
7刘越.个人信息、数据的权属[J].人民法治,2017(9):14-16. 被引量：3
8Windows XP休眠中遇到的问题[J].电击高手,2004(6):89-89.
9赵江.这样救数据最有效(二)——系统崩溃导致的数据丢失[J].电脑爱好者,2002(20):43-44.
10王海兵,谷玉娟,刘小亚,李磊,柯潇,朱文涛.基于网状Meta分析的舒肝解郁胶囊治疗抑郁障碍的成本-效果分析[J].中国药物经济学,2017,12(8):19-24. 被引量：5

应用科学学报

2017年第5期

浏览历史

内容加载中请稍等...

一种基于数据不确定性的概念漂移数据流分类算法被引量：7

参考文献2

二级参考文献16

共引文献16

同被引文献44

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

一种基于数据不确定性的概念漂移数据流分类算法 被引量：7

参考文献2

二级参考文献16

共引文献16

同被引文献44

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

一种基于数据不确定性的概念漂移数据流分类算法被引量：7