基于决策树模型重用的分布变化流数据学习被引量：14

Learning from distribution-changing data streams via decision tree model reuse

导出

摘要在很多真实应用中,数据以流的形式不断被收集得到.由于数据收集环境往往发生动态变化,流数据的分布也会随时间不断变化.传统的机器学习技术依赖于数据独立同分布假设,因而在这类分布变化的流数据学习问题上难以奏效.本文提出一种基于决策树模型重用的算法进行分布变化的流数据学习.该算法是一种在线集成学习方法:算法将维护一个模型库,并通过决策树模型重用机制更新模型库.其核心思想是希望从历史数据中挖掘与当前学习相关的知识,从而抵御分布变化造成的影响.通过在合成数据集和真实数据集上进行实验,我们验证了本文提出方法的有效性. In many real-world applications,data are collected in the form of streams.As a result of the evolving nature of dynamic environments,the distribution of data streams generally changes over time.Such distribution changes hinder the application of conventional machine learning approaches because the fundamental assumption of independent and identical distribution does not hold in these scenarios.This paper proposes an algorithm based on the decision tree model reuse mechanism for learning from distribution-changing data streams.The proposed algorithm is essentially an online ensemble method that maintains a model pool and updates it by performing decision tree model reuse.The main idea is to exploit the useful knowledge in historical data to help resist the negative effects of distribution changes.We validate the effectiveness of the proposed approach through experiments on synthetic and real-world datasets.

作者赵鹏周志华 Peng ZHAO;Zhi-Hua ZHOU(National Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210023,China)

机构地区南京大学计算机软件新技术国家重点实验室

出处《中国科学：信息科学》 CSCD 北大核心 2021年第1期1-12,共12页 Scientia Sinica(Informationis)

基金国家自然科学基金(批准号:61921006)资助项目。

关键词机器学习分布变化流数据模型重用集成学习动态环境 machine learning distribution change data stream model reuse ensemble methods dynamic environments

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1Zhi-Hua ZHOU.Learnware： on the future of machine learning[J].Frontiers of Computer Science,2016,10(4):589-590. 被引量：18
2吴西竹,周志华.领域知识指导的模型重用[J].中国科学：信息科学,2017,47(11):1483-1492. 被引量：4

二级参考文献11

1Li N, Tsang I W, Zhou Z H. Efficient optimization of performance mea- sures by classifier adaptation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6): 1370-1382.
2Pan S J, Yang Q. A survey of transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
3Sugiyama M, Kawanabe M. Machine Learning in Non-Stationary En- vironments: Introduction to Covariate Shift Adaptation. Cambridge, MA: MIT Press, 2012.
4Da Q, Yu Y, Zhou Z H. Learning with augmented class by exploiting unlabeled data. In: Proceedings of the 28th AAAI Conference on Arti- ficial Intelligence. 2014, 1760-1766.
5Mu X, Ting K M, Zhou Z H. Classification under streaming emerg- ing new classes: a solution using completely random trees. CORR abs/1605.09131, 2016.
6Hou C, Zhou Z H. One-pass learning with incremental and decremental features. CORR abs/1605.09082, 2016.
7Dietterich T G. Towards robust artificial intelligence. AAAI Presiden- tial Address at the 30th AAAI Conference on Artificial Intelligence. 2016.
8Zhou Z H, Jiang Y, Chen S F. Extracting symbolic rules from trained neural network ensembles. AI Communications, 2003, 16(1): 3-15.
9Zhou Z H, Jiang Y. NeC4.5: Neural ensemble based C4.5. IEEE Trans- actions on Knowledge and Data Engineering, 2004, 16(6): 770-773.
10Zhou Z H. Ensemble Methods: Foundations and Algorithms. Boca Ra- ton, FL: CRC Press, 2012.

共引文献20

1吴西竹,周志华.领域知识指导的模型重用[J].中国科学：信息科学,2017,47(11):1483-1492. 被引量：4
2戴望州,周志华.归纳逻辑程序设计综述[J].计算机研究与发展,2019,56(1):138-154. 被引量：2
3李卫民,徐楠,陶志.基于特征属性挖掘民机适航研究前沿的探索[J].情报理论与实践,2019,42(12):128-133. 被引量：2
4刘晓玲,刘柏嵩,王洋洋,唐浩.基于深度学习的多标签生成研究进展[J].计算机科学,2020,47(3):192-199. 被引量：7
5叶翰嘉,詹德川.基于模型分解的小样本学习[J].中国科学：信息科学,2020,50(5):662-674. 被引量：1
6李新春,詹德川.一种保持语义关系的词向量复用方法[J].中国科学：信息科学,2020,50(6):813-823. 被引量：4
7Yanbin WANG,Zhuhong YOU,Liping LI,Zhanheng CHEN.A survey of current trends in computational predictions of protein-protein interactions[J].Frontiers of Computer Science,2020,14(4):1-12. 被引量：1
8冯霁,蔡其志,姜远.联邦学习下对抗训练样本表示的研究[J].中国科学：信息科学,2021,51(6):900-911. 被引量：5
9Qiuye Sun,Lingxiao Yang.From Independence to Interconnection--A Review of AI Technology Applied in Energy Systems[J].CSEE Journal of Power and Energy Systems,2019,5(1):21-34. 被引量：8
10Yan Zhou,Lili Pan,Rongyu Chen,Weizhi Shao.A Novel Image Retrieval Method with Improved DCNN and Hash[J].Journal of Information Hiding and Privacy Protection,2020,2(2):77-86.

同被引文献92

1许冠英,韩萌,王少峰,贾涛.数据流集成分类算法综述[J].计算机应用研究,2020,37(1):1-8. 被引量：11
2Shuai Zhang,Hongyan Liu,Jun He,Sanpu Han,Xiaoyong Du.Deep Sequential Model for Anchor Recommendation on Live Streaming Platforms[J].Big Data Mining and Analytics,2021,4(3):173-182. 被引量：6
3廖惜春,丘敏,麦汉荣.无线传感网络中多普勒效应的研究与仿真[J].传感技术学报,2007,20(12):2674-2678. 被引量：5
4王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：40
5姚飞,匡麟玲,詹亚锋,陆建华.深空通信天线组阵关键技术及其发展趋势[J].宇航学报,2010,31(10):2231-2238. 被引量：32
6Lina Lan Xuerong Gou Jingli Mao Wenyuan Ke.GSM Co-Channel and Adjacent Channel Interference Analysis and Optimization[J].Tsinghua Science and Technology,2011,16(6):583-588. 被引量：1
7徐文华,覃征,常扬.基于半监督学习的数据流集成分类算法[J].模式识别与人工智能,2012,25(2):292-299. 被引量：18
8钱志鸿,王义君.物联网技术与应用研究[J].电子学报,2012,40(5):1023-1029. 被引量：382
9文益民,强保华,范志刚.概念漂移数据流分类研究综述[J].智能系统学报,2013,8(2):95-104. 被引量：25
10郭躬德,李南,陈黎飞.一种基于混合模型的数据流概念漂移检测算法[J].计算机研究与发展,2014,51(4):731-742. 被引量：13

引证文献14

1文益民,刘帅,缪裕青,易新河,刘长杰.概念漂移数据流半监督分类综述[J].软件学报,2022,33(4):1287-1314. 被引量：5
2孙凯.训练器辅助下运动员在训练中的心率自动监测研究[J].自动化与仪器仪表,2022(6):154-158.
3郭虎升,高淑花,王文剑.基于串行交叉混合集成的概念漂移检测及收敛方法[J].数据采集与处理,2022,37(5):997-1011. 被引量：1
4李新春,詹德川.使用多分类器的分布式模型重用技术[J].计算机科学与探索,2022,16(10):2310-2319.
5刘云浩,李振华,李洋,林灏,宫良一,郑雅文.代际交错背景下移动蜂窝系统的近因现象与自调控设计:速度、能耗与可靠性[J].中国科学：信息科学,2022,52(12):2290-2305. 被引量：1
6李晨.云计算背景下流数据集成与服务研究[J].软件,2022,43(11):184-186.
7钟章生,袁智勇.基于块坐标下降算法的优化哈希数据流频率估计[J].广西大学学报（自然科学版）,2022,47(6):1585-1598.
8郭虎升,丛璐,高淑花,王文剑.基于在线集成的概念漂移自适应分类方法[J].计算机研究与发展,2023,60(7):1592-1602.
9郭虎升,孙妮.基于动态边界收缩的概念漂移收敛方法[J].山西大学学报（自然科学版）,2023,46(6):1293-1306.
10郭虎升,孙妮,王嘉豪,王文剑.基于自适应深度集成网络的概念漂移收敛方法[J].计算机研究与发展,2024,61(1):172-183.

二级引证文献7

1李京阳,刘三民,张匡燕.基于三支决策的数据流主动学习分类研究[J].天津理工大学学报,2023,39(3):21-26.
2牟少霞,吕冰彩.融合注意力机制的人机交互信息半监督敏感数据抽取算法[J].计算技术与自动化,2023,42(3):85-89.
3尹春勇,陈双双.结合微聚类和主动学习的流分类方法[J].计算机工程与应用,2023,59(20):254-265.
4郭虎升,孙妮.基于动态边界收缩的概念漂移收敛方法[J].山西大学学报（自然科学版）,2023,46(6):1293-1306.
5李振华,王泓懿,李洋,林灏,杨昕磊.大规模复杂终端网络的云原生强化设计[J].计算机研究与发展,2024,61(1):2-19.
6张玲,马士伦,黎利辉,文益民.一种基于局部分类精度的概念漂移数据流分类算法[J].广西科学,2024,31(1):100-109.
7王婧,郭虎升,王文剑.基于弱监督集成的概念演化自适应检测方法[J].吉林大学学报（信息科学版）,2024,42(3):406-420.

1高兴.关于有效推进集团企业业财一体化的思考[J].企业科技与发展,2020(12):200-202. 被引量：4
2李锐.人工智能工程师:赋予机器“智慧”的手艺人[J].高校招生（高考指导）,2020(9):41-43.
3翟亮,牟芳芳(译).理论的未来(6):解释[J].英语学习,2021(1):70-72.
4支恩玮,任密蜂,程兰,阎高伟.基于域适应支持向量回归的磨机负荷软测量[J].控制工程,2020,27(11):1867-1872. 被引量：1
5叶梓珩,张富震,朱耀琴,李蔚清.复杂仿真系统重用模型可信度评估方法[J].系统仿真学报,2020,32(12):2475-2484. 被引量：4
6工业和信息化部、应急管理部印发“工业互联网+安全生产”行动计划[J].吉林劳动保护,2020(10):11-11.
7李先国,宋明蕊,黄元豪,郝婉婷,寇思宁,李慧敏.健康食品消费的助推策略研究述评与展望——决策系统视角[J].科学决策,2021(2):67-91. 被引量：4
8岳根霞,刘金花,刘峰.基于决策树算法的医疗大数据填补及分类仿真[J].计算机仿真,2021,38(1):451-454. 被引量：14
9李庭芝死守扬州捍卫孤城[J].民间传奇故事,2021(7):33-33.
10陈作厅,胡胜男,余奕.智慧时代图书馆读者账户建设新模式研究[J].科技创新导报,2020,17(28):158-161.

中国科学：信息科学

2021年第1期

浏览历史

内容加载中请稍等...

基于决策树模型重用的分布变化流数据学习被引量：14

参考文献2

二级参考文献11

共引文献20

同被引文献92

引证文献14

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于决策树模型重用的分布变化流数据学习 被引量：14

参考文献2

二级参考文献11

共引文献20

同被引文献92

引证文献14

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于决策树模型重用的分布变化流数据学习被引量：14