基于逻辑回归的不平衡数据算法适用性研究被引量：1

Research on the Applicability of Unbalanced Data Algorithm Based on Logistic Regression

下载PDF

导出

摘要逻辑回归模型容易受到不平衡数据的影响,本文主要探究了随机欠采样法、Border Line-Smote (BLS)过采样法、自适应综合过采样法(Synthetic Minority Oversampling Technique)等三种不平衡数据算法对逻辑回归模型的适用情况。利用逻辑回归模型分别对三种方法平衡之后的数据,处理之后发现BLS过采样法得出的各项指标最优,ADASYN过采样法得出的各项指标最差,最终得出BLS过采样法更适用于逻辑回归模型的不平衡数据集的处理。 The logistic regression model is susceptible to the impact of unbalanced data. This paper mainly explores the applicability of three kinds of unbalanced data algorithms, including stochastic under-sampling, Border Line-Smote oversampling (BLS) method, and Synthetic Minority Over-sampling Technique, to the logistic regression model. By using logistic regression model to process the balanced data of the three methods, it was found that the indicators obtained by BLS over-sampling method were the best and the indicators obtained by ADASYN over-sampling method were the worst. Finally, it was concluded that BLS oversampling method was more suitable for the processing of unbalanced data sets of logistic regression model.

作者李超杰温磊

机构地区交通银行江苏省分行东南大学

出处《计算机科学与应用》 2020年第11期2049-2057,共9页 Computer Science and Application

关键词逻辑回归随机欠采样法 BSL过采样法 ADASYN过采样法 Logistic Regression Random Over-Sampling Border Line-Smote Method ADASYN Method

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1王和勇,樊泓坤,姚正安,李成安.不平衡数据集的分类方法研究[J].计算机应用研究,2008,25(5):1301-1303. 被引量：25
2宋捷.不平衡数据处理方法综述[J].统计与决策,2014,30(3):100-102. 被引量：3
3蒋华,江日辰,王鑫,王慧娇.ADASYN和SMOTE相结合的不平衡数据分类算法[J].计算机仿真,2020,37(3):254-258. 被引量：16
4顾东晓,李培培,杨雪洁.网络在线预约挂号系统用户的爽约行为研究[J].情报科学,2017,35(6):99-106. 被引量：8
5徐丽丽,闫德勤,高晴.基于聚类欠采样的极端学习机[J].微型机与应用,2015,34(17):81-84. 被引量：5
6高阳,刘其成,牟春晓.基于蚁群聚类的不平衡数据过采样方法[J].烟台大学学报（自然科学与工程版）,2021,34(2):210-216. 被引量：1
7刘金平,周嘉铭,贺俊宾,唐朝晖,徐鹏飞,张国勇.面向不均衡数据的融合谱聚类的自适应过采样法[J].智能系统学报,2020,15(4):732-739. 被引量：8

二级参考文献95

1肖春景,张敏.基于减法聚类与模糊c-均值的模糊聚类的研究[J].计算机工程,2005,31(B07):135-137. 被引量：22
2HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
3EZAWA K J, SINGH M, NORTON S W. Learning goal oriented Bayesian networks for telecommunications management [ C ]//Proc of the 13th International Conference on Machine Learning. San Fransisco: Morgan Kaufmann, 1996:139-147.
4CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE:synthetic minority over-sampling technique[ J ]. Journal of Artificial Intelligence Research, 2002,16:321-357.
5KUBAT M, HOLTE R, MATWIN S. Machine learning for the detection of oil spills in satellite radar images [ J ]. Machine Learning, 1998,30(2) :195-215.
6BOSCH A T, HERIK H J, DAELEMANS W. When small disjuncts abound, try lazy learning: a case study[ C ]//Proc of the 7th Belgian- Dutch Conference on Machine Learning. 1997 : 109-118.
7ZHENG Zhao-hui, WU Xiao-yun, SRIHARI R. Feature selection for text categorization on imbalanced data[ J ]. SIGKDD Explorations, 2004,6( 1 ) :80-89.
8FAWCETT T, PROVOST F. Combining data mining and machine learning for effective user profile [ C ]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland: AAAI Press, 1996:8-13.
9JAPKOWICZ N. Learning form imbalanced data sets : a comparison of various strategies, WS-00-05 [ R]. Menlo Park: AAAI Press, 2000.
10CHAWLA N V, JAPKOWICZ N, KOLCZ A. Proceedings of the ICML workshop on learning from imbalanced data sets[ C]. 2003.

共引文献57

1程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61. 被引量：1
2孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：11
3谢志强,张豪,杨静,谭怀生.高维数据多级模糊模式识别的分类研究[J].计算机应用研究,2009,26(11):4045-4047. 被引量：1
4李明方,张化祥.针对不平衡数据集的Bagging改进算法[J].计算机工程与应用,2010,46(30):40-42. 被引量：12
5陈川,张化祥.基于聚类的少数类样本采样方法[J].信息技术与信息化,2011(5):65-68. 被引量：1
6张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
7李艳玲,郭文普,徐东辉.一种不平衡数据的分类方法[J].中国电子科学研究院学报,2012,7(3):246-251. 被引量：5
8刘成忠,韩俊英.基于邻域粗糙集的支持向量机在污水处理故障诊断中的应用[J].甘肃农业大学学报,2013,48(3):176-180. 被引量：3
9谢娜娜,房斌,吴磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2013,49(20):118-121. 被引量：11
10徐丽丽,闫德勤,高晴.基于聚类欠采样的极端学习机[J].微型机与应用,2015,34(17):81-84. 被引量：5

同被引文献7

1韩松来,张辉,周华平.决策树的属性选取策略综述[J].微计算机应用,2007,28(8):785-790. 被引量：5
2周颖,吕巍,井淼.基于数据挖掘技术的移动通信行业客户细分[J].上海交通大学学报,2007,41(7):1142-1145. 被引量：27
3尹启华,邓然.精准营销研究现状[J].经济研究导刊,2010(9):158-159. 被引量：20
4徐广斌,张伟.DeepEye:一个基于深度学习的程序化交易识别与分类方法[J].大数据,2018,4(5):94-102. 被引量：1
5李研,高书波,冯忠伟.基于运营商大数据技术的精准营销应用研究[J].信息技术,2017,41(5):178-180. 被引量：16
6王俊,陈贵松,田家华.精准营销理论浅探[J].中国集体经济,2009,0(1X):70-71. 被引量：18
7崔宇.基于数据挖掘技术的通信行业客户精准营销策略研究[J].中国新通信,2020,22(19):7-8. 被引量：4

引证文献1

1周露露,钟玲,思永坤.基于机器学习的5G精准营销模型[J].移动通信,2022,46(7):66-71.

1刘金平,周嘉铭,贺俊宾,唐朝晖,徐鹏飞,张国勇.面向不均衡数据的融合谱聚类的自适应过采样法[J].智能系统学报,2020,15(4):732-739. 被引量：8
2吴启帆,宋新立,张静冉,禹海峰,黄家栋,戴汉扬,罗华伟.电池储能参与电网一次调频的自适应综合控制策略研究[J].电网技术,2020,44(10):3829-3836. 被引量：62
3宛鹏翔,范俊,韩省思,毛军逵.冲击射流流动换热超大涡模拟研究[J].推进技术,2020,41(10):2237-2247. 被引量：6
4Yuan Lei,Li Lei,Lei Xia,Mingxiang Liu,Yueming Cai,Jingtao Zhao,Mengyue Li.Multi-channel DMA Based Design of Voltage Monitoring Using Synchronous Frequency Trace-Sampling Technique[J].Modern Electronic Technology,2020,4(2):17-20.
5赵文德,刘世明.基于DPSIR-FAM模型的区域物流需求规模预测指标体系研究[J].商场现代化,2020(22):30-34. 被引量：1

计算机科学与应用

2020年第11期

浏览历史

内容加载中请稍等...

基于逻辑回归的不平衡数据算法适用性研究被引量：1

参考文献7

二级参考文献95

共引文献57

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于逻辑回归的不平衡数据算法适用性研究 被引量：1

参考文献7

二级参考文献95

共引文献57

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于逻辑回归的不平衡数据算法适用性研究被引量：1