基于实例迁移的数据流分类挖掘方法被引量：8

Classification Mining Method for Data Streams Based on Instances Transfer

导出

摘要为解决数据流分类过程中样本标注和概念漂移问题,提出了一种基于实例迁移的数据流分类挖掘模型.首先,该模型用支持向量机作学习器,用所得分类模型中的支持向量构建源领域,待分类的当前数据块为目标域.然后,借助互近邻思想在源域中挑选目标域中样本的真邻居进行实例迁移,避免发生负迁移.最后,通过合并目标域和迁移样本形成训练集,提高标注样本数量,增强模型的泛化能力.理论分析和实验结果表明,所提方法具有可行性,相比其它学习方法在分类准确性方面更具优势. To solve the problem of sample labeling and concept drift in the process of data streams classification, we propose an instance-based transfer data streams classification model. First, we use support vector machine as the learning machine in this model. The support vectors constitute the source domain, and the current data block forms the target domain. Then, we select the real neighbors of the target domain from the source domain according to mutual neighbor concept;as a result, the occurrence of negative transfer can be neglected. Finally, we combine the target domain and the transfer sample to form a training set, and this enlarges the number of labeled sample and enhances the generalization ability of the classifier model. Through the analysis of theory and the experiment results, the method is found to be feasible and superior to the other learning methods in terms of classification accuracy.

作者刘三民刘余霞 LIU Sanmin;LIU Yuxia(College of Computer and Information, Anhui Polytechnic University, Wuhu 241000, China)

机构地区安徽工程大学计算机与信息学院

出处《信息与控制》 CSCD 北大核心 2019年第3期380-384,共5页 Information and Control

基金国家自然科学基金资助项目(71371012) 安徽省自然科学基金资助项目(1608085MF147) 教育部人文社科基金资助项目(18YJA630114) 安徽省提升计划一般项目(TSKJ2016B05)

关键词互近邻迁移学习数据流分类增量学习 mutual nearest neighbor transfer learning data stream classification incremental learning

分类号 TP273.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1何文韬,邵诚.工业大数据分析技术的发展及其面临的挑战[J].信息与控制,2018,47(4):398-410. 被引量：40
2孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：312
3吕艳霞,王翠容,王聪,苑迎.一种基于数据不确定性的概念漂移数据流分类算法[J].应用科学学报,2017,35(5):559-569. 被引量：7
4文益民,唐诗淇,冯超,高凯.基于在线迁移学习的重现概念漂移数据流分类[J].计算机研究与发展,2016,53(8):1781-1791. 被引量：16
5赵强利,蒋艳凰,卢宇彤.具有回忆和遗忘机制的数据流挖掘模型与算法[J].软件学报,2015,26(10):2567-2580. 被引量：15
6刘三民,孙知信,刘涛.基于样本不确定性的增量式数据流分类研究[J].小型微型计算机系统,2015,36(2):193-196. 被引量：9
7杨海涛,肖军,王佩瑶,王威.基于参数间隔孪生支持向量机的增量学习算法[J].信息与控制,2016,45(4):432-436. 被引量：8
8孙艳歌,王志海,原继东,白洋.基于信息熵的数据流自适应集成分类算法[J].中国科学技术大学学报,2017,47(7):575-582. 被引量：10
9舒醒,于慧敏,郑伟伟,谢奕,胡浩基,唐慧明.基于边际Fisher准则和迁移学习的小样本集分类器设计算法[J].自动化学报,2016,42(9):1313-1321. 被引量：12
10杭文龙,蒋亦樟,刘解放,王士同.迁移近邻传播聚类算法[J].软件学报,2016,27(11):2796-2813. 被引量：17

二级参考文献81

1栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：114
2杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
3孔波,刘小茂,张钧.基于中心距离比值的增量支持向量机[J].计算机应用,2006,26(6):1434-1436. 被引量：16
4王晓丹,郑春颖,吴崇明,张宏达.一种新的SVM对等增量学习算法[J].计算机应用,2006,26(10):2440-2443. 被引量：21
5申晓勇,雷英杰,史朝辉,王坚,呼玮.一种SVM增量学习淘汰算法[J].计算机工程与应用,2007,43(6):171-173. 被引量：13
6王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：41
7Frey BJ, Dueck D. Clustering by passing messages between data points.Science, 2007, 315(5814):972–976.[doi:10.1126/science.1136800].
8Kschischang FR, Frey BJ, Loeliger HA. Factor graphs and the sum-product algorithm.IEEE Trans. on Information Theory, 2001, 47(2):498–519.[doi:10.1109/18.910572].
9McQueen JB. Some methods for classification and analysis of multivariate observations. In:Proc. of the 5th Berkeley Symp. on Mathematical Statistics and Probability. Berkeley:University of California Press, 1967. 281-297.
10Kohonen T. Self-Organizing Feature Maps. Berlin, Heidelberg:Springer-Verlag, 1989.[doi:10.1007/978-3-642-88163-3_5].

共引文献429

1张成,郑晓芳,郭青秀,冯立伟,戴絮年,李元.邻域保持嵌入—加权k近邻故障检测算法及其在半导体蚀刻过程中的应用[J].信息与控制,2019,48(6):738-744.
2牛一凡,邵景峰.基于非线性数据融合的设备多阶段寿命预测[J].信息与控制,2019,48(6):729-737. 被引量：9
3张彦,谢兴生,陈晓雨.一种处理大数据的复杂适应系统框架设计[J].电子技术（上海）,2021,50(3):22-25.
4陈亚科.基于大数据的信息传输过程中数据安全性的研究[J].电子测量技术,2020(7):119-123. 被引量：12
5亮亮.在海底安个家[J].大自然探索,2000(6):69-72.
6李文祺.北极离我们很近[J].走近科学,2000(1):26-27.
7冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1
8李尧,王志海,孙艳歌,张伟.一种基于深度属性加权的数据流自适应集成分类算法[J].山东大学学报（工学版）,2018,48(6):44-55. 被引量：3
9魏葆春,甘发旺.物联网多层设备信息通信数据分类识别仿真[J].计算机仿真,2019,36(1):425-428. 被引量：3
10程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：739

同被引文献65

1张笑东,夏筱筠,吕海峰,公绪超,廉梦佳.大数据网络并行计算环境中生理数据流动态负载均衡[J].吉林大学学报（工学版）,2020,50(1):247-254. 被引量：11
2高上凯.浅谈脑—机接口的发展现状与挑战[J].中国生物医学工程学报,2007,26(6):801-803. 被引量：70
3陈学浩,季君,江海龙.浅析雾天高速公路事故成因及管控要点[J].中国公共安全（学术版）,2010(3):96-98. 被引量：6
4胡学钢,方玉成,张玉红.基于Logistic回归分析的直推式迁移学习[J].合肥工业大学学报（自然科学版）,2010,33(12):1797-1801. 被引量：4
5孟宗,顾海燕,刘利晖,袁静.基于EMD与AR谱的轧机主传动系统故障诊断研究[J].计量学报,2011,32(4):338-342. 被引量：10
6戴晓晖,李敏强,寇纪淞.遗传算法理论研究综述[J].控制与决策,2000,15(3):263-268. 被引量：93
7谢平,陈晓玲,苏玉萍,梁振虎,李小俚.基于EMD-多尺度熵和ELM的运动想象脑电特征提取和模式识别[J].中国生物医学工程学报,2013,32(6):641-648. 被引量：13
8李祥攀,张惠博,俞建雄,宋启斌,肖建平.放射治疗对转移性鼻咽癌生存的影响——基于SEER数据库的回顾性研究[J].中华放射肿瘤学杂志,2019,28(1):5-12. 被引量：9
9李晓竹,解华.基于AdaBoost的多项式旋流器溢流粒度软测量模型[J].计量学报,2016,37(3):275-278. 被引量：1
10王雪松,朱美新,邢祎伦.基于自然驾驶数据的避撞预警对跟车行为影响[J].同济大学学报（自然科学版）,2016,44(7):1045-1051. 被引量：14

引证文献8

1程鲁明,肖菊香.oracle数据库批量数据无损迁移技术研究[J].电子设计工程,2020,28(18):34-37. 被引量：4
2熊菊霞,吴尽昭.高维数据流异常节点动态跟踪仿真研究[J].计算机仿真,2020,37(10):445-449. 被引量：3
3陈波红,张婷.高维不确定数据三支决策聚类方法研究[J].计算机仿真,2020,37(12):295-298.
4杜义浩,刘兆军,付子豪,张园园,任娜,陈杰,谢平.基于混合迁移学习的运动想象分类算法研究及其在脑机接口中的应用[J].计量学报,2021,42(5):629-637. 被引量：4
5王俊红,郭亚慧.面向动态数据块的非平衡数据流分类算法[J].计算机工程与应用,2021,57(13):124-129. 被引量：4
6王彦,董育宁,葛军.实现网络视频流多分类的迁移学习算法[J].计算机工程与应用,2021,57(14):164-168. 被引量：2
7姚永生,董育宁,邱晓晖.基于相似性度量的网络流分类模型融合[J].计算机技术与发展,2021,31(12):7-12. 被引量：1
8刘钦,宋太龙,李振龙,赵晓华.小样本下基于迁移学习与LSTM的雾天高速公路车辆跟驰模型[J].交通信息与安全,2023,41(1):13-22. 被引量：2

二级引证文献20

1李根.基于迁移学习的5G通信网络异常节点检测研究[J].电子元器件与信息技术,2022,6(9):156-159. 被引量：1
2吴天宇,冯蕊,杨翠.Oracle数据库批量数据无损迁移技术[J].电子技术与软件工程,2021(8):204-205. 被引量：3
3路晶,胡顺仿.基于粒度理论的高维数据流并行计算方法[J].计算机仿真,2021,38(5):246-249.
4姚永生,董育宁,邱晓晖.基于相似性度量的网络流分类模型融合[J].计算机技术与发展,2021,31(12):7-12. 被引量：1
5甘一鸣,李东鑫,王徽.基于Redis的潜艇部队训练信息管理系统设计[J].现代电子技术,2022,45(16):99-102. 被引量：4
6张荣,杨树例,李炳武.“互联网+”时代应用系统数据库开发关键技术[J].信息与电脑,2022,34(11):164-166. 被引量：1
7金海龙,邬霞,樊凤杰,王金萍.基于GST-ECNN的运动想象脑电信号识别方法[J].计量学报,2022,43(10):1341-1347. 被引量：2
8赵娇.基于BIRCH聚类算法的高维传感器数据异常检测[J].传感技术学报,2022,35(12):1686-1690. 被引量：4
9高诺,王蕴辉.基于黎曼空间的运动想象脑电信号特征迁移学习算法研究[J].生物医学工程研究,2023,42(2):174-180.
10刘柯杰,王正国,李济顺,薛玉君.面向矿山设备状态监测的边缘管理系统研发[J].软件,2023,44(6):30-34.

1倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：15
2张媛媛.海南黎语对英语发音的负迁移研究[J].佳木斯职业学院学报,2019,35(2):159-160.
3蓝文奇.大数据环境下网络入侵检测技术的探究[J].数字技术与应用,2019,37(5):197-199. 被引量：2
4王筱.语文学习中的负迁移现象及对策[J].教育探索,2019,0(3):32-34. 被引量：1
5李永生.功能组在PLC标准化编程中的应用[J].工业控制计算机,2019,32(6):50-50. 被引量：2
6栾金伟.基于大数据的数据挖掘技术在网络安全上的研究[J].电脑乐园,2018,3(9):251-251.
7廖梅玉.运用知识迁移优化小学数学教学[J].文理导航（教育研究与实践）,2019,0(7):152-152.
8魏雷,李超.“自然生态”主题绘本的隐喻研究——以The Lorax为例[J].湖州师范学院学报,2019,41(7):30-36. 被引量：3
9刘同娟,姜珊.V-随机森林算法在微博无效评论识别中的应用[J].电脑知识与技术,2019,15(5):23-25.
10李亦滔,叶德住,汤绍钊,雷奶华.支持向量机与证据理论融合在电机转子故障诊断中的应用[J].宁德师范学院学报（自然科学版）,2019,31(2):147-155.

信息与控制

2019年第3期

浏览历史

内容加载中请稍等...

基于实例迁移的数据流分类挖掘方法被引量：8

参考文献10

二级参考文献81

共引文献429

同被引文献65

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于实例迁移的数据流分类挖掘方法 被引量：8

参考文献10

二级参考文献81

共引文献429

同被引文献65

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于实例迁移的数据流分类挖掘方法被引量：8