基于SMOTE-AdaBoost-DT的类别不平衡信用评分模型被引量：2

A SMOTE-AdaBoost-DT model for credit scoring

下载PDF

导出

摘要目的:针对信用评分样本类别不平衡问题,提出一种新的分类方法——合成少数类过采样技术-自适应增强-决策树(SMOTE-AdaBoost-DT)模型。方法:首先,利用SMOTE生成少数类样本,降低数据的不平衡性;其次,利用以DT为基分类器的AdaBoost算法对数据进行分类预测;最后,选取Kaggle平台上的信贷数据集进行实证检验。结果:以AUC和G-mean作为分类评价指标,SMOTE-AdaBoost-DT模型的AUC均值为89.19%,G-mean均值为89.09%,优于决策树、随机森林、AdaBoost和神经网络等算法,且指标的标准差最小。结论:本文提出的模型不仅能提高客户信用评分的准确度,而且可以提高模型的稳定性。 Aims:According to imbalanced classification,a new ensemble classification model is proposed,which integrates the synthetic minority oversampling technique(SMOTE)and the Adaptive Boosting algorithm(AdaBoost)cascading multiple Decision Trees(DT).Methods:Firstly,SMOTE was used to generate some minority samples to keep balanced data distribution.Secondly,the AdaBoost algorithm with multiple DTs was employed to predict the credit score.Finally,the credit dataset on Kaggle was used to test the effectiveness of our model.Results:The area under the curve(AUC)of the SMOTE-AdaBoost-DT model was 89.19%;and the G-mean was 89.09%.Both were better than other algorithms,including DT,Random Forest,AdaBoost and Backpropagation Neural Networks.Meanwhile,the standard deviation was the smallest.Conclusions:The proposed model is good and stable.

作者赵佳丽徐明江吴增源郑素丽 ZHAO Jiali;XU Mingjiang;WU Zengyuan;ZHENG Suli(College of Economics and Management,China Jiliang University,Hangzhou 310018,China;Hangzhou Qiandao Lake Development Group Co.,Ltd.,Hangzhou 311799,China)

机构地区中国计量大学经济与管理学院杭州千岛湖发展集团有限公司

出处《中国计量大学学报》 2021年第4期549-554,共6页 Journal of China University of Metrology

基金国家自然科学基金项目(No.71572187) 浙江省自然科学基金项目(No.LY20G010008)。

关键词信用评分 SMOTE技术集成学习不平衡分类 credit scoring SMOTE ensemble learning imbalanced classification

分类号 F832.4 [经济管理—金融学]

引文网络
相关文献

参考文献2

1杨磊,陆慧娟,严珂,叶敏超.一种计算代价敏感算法分类精度的方法[J].中国计量大学学报,2017,28(1):92-96. 被引量：4
2吴增源,周彩虹,刘畅,郑素丽.基于不平衡大数据的CS-AdaBoost-DT模型在家电产品质检中的应用[J].工业工程与管理,2020,25(5):42-49. 被引量：8

二级参考文献23

1郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
2凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
3付忠良.关于AdaBoost有效性的分析[J].计算机研究与发展,2008,45(10):1747-1755. 被引量：47
4闫伟,何桢,田文萌,何曙光.基于EM的不平衡数据关键质量特性识别[J].工业工程与管理,2012,17(4):38-42. 被引量：5
5陶新民,郝思媛,张冬雪,徐鹏.不均衡数据分类算法的综述[J].重庆邮电大学学报（自然科学版）,2013,25(1):101-110. 被引量：66
6安春霖,陆慧娟,郑恩辉,王明怡,陆羿.嵌入误分类代价和拒识代价的极限学习机基因表达数据分类[J].山东大学学报（工学版）,2013,43(4):18-25. 被引量：1
7张晓贺,翟亮,张继贤,杨享兵.AdaTree算法在遥感影像分类中的应用[J].武汉大学学报（信息科学版）,2013,38(12):1460-1464. 被引量：5
8李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：74
9安春霖,陆慧娟,魏莎莎,杨小兵.嵌入代价敏感的极限学习机相异性集成的基因表达数据分类[J].计算机科学,2014,41(12):211-215. 被引量：7
10李秋洁,赵亚琴,顾洲.代价敏感学习中的损失函数设计[J].控制理论与应用,2015,32(5):689-694. 被引量：15

共引文献9

1宋艳,白治江.基于扩展近邻SMOTE过采样的SVM分类器[J].现代计算机,2018,24(10):34-38. 被引量：3
2杨雯涵.基于决策树模型的个人消费信用预测[J].经济视野,2019,0(8):98-98.
3陈力,赵礼峰.基于集成方法的不平衡数据分类研究[J].计算机与数字工程,2021,49(11):2271-2275. 被引量：2
4封晓斌,汤易兵,吴增源,徐明江.基于SRFML-Lift的流程制造产品质量状态监测[J].中国管理科学,2021,29(12):227-236. 被引量：4
5柏雪,李剑锋.基于Bagging集成算法的产品质量等级智能判定研究[J].工业工程与管理,2022,27(4):58-66. 被引量：2
6李颖,吴增源,陈亮.基于ADASYN-LOF-RF模型的核心专利识别研究[J].中国计量大学学报,2022,33(4):609-616. 被引量：3
7李颖,吴增源,陈亮.基于SMOTE-LOF-Adaboost模型的核心专利识别研究[J].科技管理研究,2023,43(21):171-177. 被引量：1
8陈扬,刘勤明,郑伊寒.不均衡小样本下的设备状态与寿命预测[J].计算机集成制造系统,2024,30(1):217-226. 被引量：1
9韩香丽,吴增源,陈亮,何斌.基于SMOTE-GA-AdaBoost模型的新兴技术识别研究[J].中国计量大学学报,2024,35(1):96-105.

同被引文献35

1郭颖,王明星,段炜钰.专利的技术新兴度与其技术影响力间关系研究[J].科学学研究,2022,40(6):1034-1043. 被引量：9
2吴东,张徽燕.论新兴技术概念的商业内涵[J].科学学与科学技术管理,2005,26(7):64-67. 被引量：4
3孙涛涛,唐小利,李越.核心专利的识别方法及其实证研究[J].图书情报工作,2012,56(4):80-84. 被引量：76
4冯君,周静珍,杜芸.单件专利质量评价指标体系研究[J].科技管理研究,2012,32(23):166-170. 被引量：27
5谢萍.核心专利识别方法研究综述[J].科技管理研究,2016,36(1):147-152. 被引量：20
6杨磊,陆慧娟,严珂,叶敏超.一种计算代价敏感算法分类精度的方法[J].中国计量大学学报,2017,28(1):92-96. 被引量：4
7马瑞敏,尉心渊.技术领域细分视角下核心专利预测研究[J].情报学报,2017,36(12):1279-1289. 被引量：29
8张杰,孙超,翟东升,孙宁宁,栾博杨.基于诉讼专利的专利质量评价方法研究[J].科研管理,2018,39(5):138-146. 被引量：32
9筱雪,张媛.基于Innography平台的波音公司和空客集团专利分析[J].情报探索,2018(9):58-64. 被引量：2
10罗立国,林文广.核心专利挖掘指标研究——以新能源汽车装置领域为例[J].科技管理研究,2018,38(18):151-156. 被引量：14

引证文献2

1李颖,吴增源,陈亮.基于ADASYN-LOF-RF模型的核心专利识别研究[J].中国计量大学学报,2022,33(4):609-616. 被引量：3
2韩香丽,吴增源,陈亮,何斌.基于SMOTE-GA-AdaBoost模型的新兴技术识别研究[J].中国计量大学学报,2024,35(1):96-105.

二级引证文献3

1李颖,吴增源,陈亮.基于SMOTE-LOF-Adaboost模型的核心专利识别研究[J].科技管理研究,2023,43(21):171-177. 被引量：1
2牛家冰,陈志雨.基于Flink的个人信用评估集成方法[J].长春工业大学学报,2023,44(6):569-576.
3韩香丽,吴增源,陈亮,何斌.基于SMOTE-GA-AdaBoost模型的新兴技术识别研究[J].中国计量大学学报,2024,35(1):96-105.

1刘博,卢婷婷,张兆宁,张健斌.基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测[J].科学技术与工程,2021,21(34):14843-14852. 被引量：6
2孙全明,常磊,马铖,曲志坚.基于图嵌入和CaGBDT的多模态出行推荐[J].北京邮电大学学报,2021,44(5):81-87. 被引量：1
3王通,罗真伟.基于SMOTE-DA-RF算法的有杆抽油系统井下工况识别[J].沈阳工业大学学报,2022,44(1):84-89. 被引量：1
4王真星.高精度便携式糖度仪研制[J].国外电子测量技术,2021,40(11):116-121. 被引量：1
5崔文涛,李杰,张德彪,赵计贺,薛栋.高过载高精度数据记录仪的设计与实现[J].中北大学学报（自然科学版）,2021,42(6):558-563. 被引量：1

中国计量大学学报

2021年第4期

浏览历史

内容加载中请稍等...

基于SMOTE-AdaBoost-DT的类别不平衡信用评分模型被引量：2

参考文献2

二级参考文献23

共引文献9

同被引文献35

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于SMOTE-AdaBoost-DT的类别不平衡信用评分模型 被引量：2

参考文献2

二级参考文献23

共引文献9

同被引文献35

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于SMOTE-AdaBoost-DT的类别不平衡信用评分模型被引量：2