基于重抽样法处理不平衡问题的信用评级模型被引量：8

Data Imbalance in Credit Score Model Based on Resampling Method

导出

摘要由于履约客户的数量远远大于违约客户,征信数据具备严重的不平衡特征,常用的处理方法较少同时考虑金融机构所关注的违约损失和市场份额因素。本文基于违约损失因素提出迭代重抽样集成模型(IRIM),利用迭代欠抽样方法提升模型对"坏"客户的关注,采用集成方法将弱分类模型转变为强分类模型;基于市场份额因素改进常用的F-value指标,引入评价分类效果的RS指标。在6类不平衡关系下进行模拟研究,并对SSBF数据和中国某银行征信数据进行实证研究。结果表明,与常用的方法和指标相比,迭代重抽样集成模型能够在确保市场份额不过度减少的情况下降低金融机构的违约风险,RS指标能够恰当地权衡市场份额和违约风险的关系。 The number of"good credit"customer is far greater than that of"bad credit"customer,thus credit data presents a seriousimbalance structure.However,common methods rarely focus on both default losses and market share,on which financial institutions puta high value.For the sake of default loss,we propose an Iterative Resampling Integration Model(IRIM)to improve model’s concern on"bad credit"customer by resampling method and transform the weak classifier to a strong one by model integration.Based on F-value in-dex,we propose a RS index for the sake of market share to evaluate classification effect.Simulation studies in 6 data imbalance cases areimplemented,empirical studies with SSBF dataset and bank of C dataset are conducted.The results demonstrate that our method can re-duce financial institutions’risk of default without excessively losing market share,and RS index can appropriately coordinate the rela-tionship between market share and default risk.

作者夏利宇何晓群 Xia Liyu;He Xiaoqun(State Grid Energy Research Institute,Bejjing 102209;School of Statistics,Renmin University of China,Beijing 100872)

机构地区国网能源研究院有限公司中国人民大学统计学院

出处《管理评论》 CSSCI 北大核心 2020年第3期75-84,共10页 Management Review

基金教育部人文社会科学重点研究基地重大项目(15JJD910002)。

关键词信用评级模型不平衡迭代重抽样评价指标 credit score model data imbalance iterative resampling evaluation index

分类号 F832.4 [经济管理—金融学]

引文网络
相关文献

参考文献5

1何晓群,夏利宇,姜天英.处理不平衡征信数据的零膨胀信用评级模型[J].数理统计与管理,2019,0(5):812-822. 被引量：9
2薛薇.非平衡数据集的改进SMOTE再抽样算法[J].统计研究,2012,29(6):95-98. 被引量：22
3夏利宇,何晓群.基于半参数方法进行拒绝推断的信用评级模型[J].管理评论,2018,30(10):40-48. 被引量：9
4陶新民,徐晶,童智靖,刘玉.不均衡数据下基于阴性免疫的过抽样新算法[J].控制与决策,2010,25(6):867-872. 被引量：11
5衣柏衡,朱建军,李杰.基于改进SMOTE的小额贷款公司客户信用风险非均衡SVM分类[J].中国管理科学,2016,24(3):24-30. 被引量：54

二级参考文献57

1韩慧,王文渊,毛炳寰.不均衡数据集中基于Adaboost的过抽样算法[J].计算机工程,2007,33(10):207-209. 被引量：13
2Huang J, Charles X Ling. Using AUC and accuracy in evaluating learning algorithms[J]. IEEE Trans on Knowledge and Data Engineering, 2005, 17(3): 299-310.
3Cohen G, Hilario M, Hugonet Sax H S, et al. Learning from imbalanced data in surveillance of nosocomial infection[J]. Artificial Intelligence in Medicine, 2006, 37(5): 7-18.
4Burez J, Van den Poel D. Handling class imbalance in customer churn prediction[J]. Expert Systems with Applications, 2009, 36(3): 4626-4636.
5Zhou Z H, Liu X Y. The influence of class imbalance on cost-sensitive learning: An empirical study[C]. Proc of the 6th IEEE Int Conf on Data Mining. Hong Kong: IEEE Press, 2006: 970-974.
6Liu X Y, Wu J X, Zhou Z H. Exploratory under-sampling for class-imbalance learning[C]. Proc of the 6th IEEE Int Conf on Data Mining. Hong Kong: IEEE Press, 2006: 965-969.
7Zhou Z H, Liu X Y. Training cost-sensitive neural networks with methods addressing the class imbalance problem[J]. IEEE Trans on Knowledge and Data Engineering, 2006, 18(1): 63-77.
8Liu X Y, Wu J, Zhou Z H. Exploratory under-sampling for class-imbalance learning[J]. IEEE Trans on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539- 550.
9Chawla N V, Bowyer K W, Hall L O. SMOTE: Synthetic minority over-sampling technique[J]. J of Artificial Intelligence Research, 2002, 16(5): 321-357.
10Han H, Wang W Y. Borderline-SMOTE: A new oversampling method in imbalanced data sets learnings[C]. Int Conf on Intelligent Computing. Hefei: IEEE Press, 2005, 3644: 878-887.

共引文献90

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：3
2迟国泰,董冰洁.基于借款描述的违约判别研究[J].管理评论,2022,34(11):261-271. 被引量：3
3何超,关伟.信用评级行业高质量发展的内在逻辑与策略研究[J].金融监管研究,2022(2):34-49. 被引量：3
4邓泽林,谭冠政,范必双,傅明.免疫分类研究进展[J].计算机工程与应用,2011,47(16):8-11. 被引量：2
5陶新民,张冬雪,郝思媛,付丹丹.基于谱聚类欠取样的不均衡数据SVM分类算法[J].控制与决策,2012,27(12):1761-1768. 被引量：28
6陶新民,郝思媛,张冬雪,徐鹏.不均衡数据分类算法的综述[J].重庆邮电大学学报（自然科学版）,2013,25(1):101-110. 被引量：66
7陶新民,郝思媛,张冬雪,李震.基于样本特性欠取样的不均衡支持向量机[J].控制与决策,2013,28(7):978-984. 被引量：25
8林宇,黄迅,徐凯.基于RU-SMOTE-SVM的金融市场极端风险预警研究[J].预测,2013,32(4):15-20. 被引量：11
9陶新民,张冬雪,郝思媛,徐鹏.基于谱聚类下采样失衡数据下SVM故障检测[J].振动与冲击,2013,32(16):30-36. 被引量：3
10李瑞,李希敏,袁晓玲.恶意软件检测中解决样本不平衡问题的策略[J].计算机系统应用,2014,23(6):17-21. 被引量：1

同被引文献95

1武剑.内部评级法中的违约损失率(LGD)模型——新资本协议核心技术研究[J].国际金融研究,2005(2):15-22. 被引量：27
2周绮凤,刘闽,林成德.商业银行信用风险评估中“拒真纳伪”两类错误的平衡控制研究[J].厦门大学学报（自然科学版）,2005,44(3):322-325. 被引量：2
3周首华,杨济华,王平.论财务危机的预警分析——F分数模式[J].会计研究,1996(8):8-11. 被引量：461
4王东静,张祥建,张景青.公司债务期限结构与违约风险[J].管理科学学报,2009,12(2):77-87. 被引量：18
5宋鹏,梁吉业,曹付元.基于邻域粗糙集的企业财务危机预警指标选择[J].经济管理,2009,35(8):130-135. 被引量：19
6李建更,高志坤.随机森林针对小样本数据类权重设置[J].计算机工程与应用,2009,45(26):131-134. 被引量：19
7马景义,吴喜之,谢邦昌.拟自适应分类随机森林算法[J].数理统计与管理,2010,29(5):805-811. 被引量：16
8张雪凤,张桂珍,刘鹏.基于聚类准则函数的改进K-means算法[J].计算机工程与应用,2011,47(11):123-127. 被引量：41
9张目,周宗放.基于投影寻踪和最优分割的企业信用评级模型[J].运筹与管理,2011,20(6):226-231. 被引量：20
10薛薇.非平衡数据集的改进SMOTE再抽样算法[J].统计研究,2012,29(6):95-98. 被引量：22

引证文献8

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：3
2刘颖,杨轲.基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J].计算机研究与发展,2021,58(3):539-547. 被引量：18
3任婷婷,鲁统宇,张伟楠.基于特征筛选和代价敏感学习的财务预警研究[J].商业会计,2021(20):11-16. 被引量：2
4任婷婷,鲁统宇,崔俊.基于改进AdaBoost算法的动态不平衡财务预警模型[J].数量经济技术经济研究,2021,38(11):182-196. 被引量：15
5樊东醒,叶春明.融合聚类过采样算法的信贷不平衡数据分类[J].软件导刊,2021,20(11):70-74. 被引量：3
6杨莲,石宝峰,董轶哲.基于Class Balanced Loss修正交叉熵的非均衡样本信用风险评价模型[J].系统管理学报,2022,31(2):255-269. 被引量：10
7张田华,张怡,谢晓金.基于代价敏感XGBoost的企业信用评估模型[J].上海工程技术大学学报,2022,36(2):218-223.
8周颖,张志鹏.基于违约企业分布约束的上市公司信用等级划分模型[J].管理评论,2023,35(5):3-18. 被引量：1

二级引证文献51

1贺远珍,樊重俊,熊红林.基于代价敏感的AdaBoost双层分类社会救助预测模型[J].计算机与数字工程,2023,51(1):156-162.
2付钰菲,汪明艳.深度学习在金融领域的应用研究综述[J].软件工程,2022,25(3):1-4. 被引量：5
3储安琪,丁志军.基于灰狼优化算法的信用评估样本均衡化与特征选择同步处理[J].计算机科学,2022,49(4):134-139. 被引量：2
4刘学文,王继奎,杨正国,李强,易纪海,李冰,聂飞平.密度峰值优化的球簇划分欠采样不平衡数据分类算法[J].计算机应用,2022,42(5):1455-1463. 被引量：9
5刘波,梁龙跃.基于KM-SVMSMOTE-CNN的信用卡欺诈检测[J].计算机系统应用,2022,31(6):361-367. 被引量：1
6杨莲,石宝峰.基于Focal Loss修正交叉熵损失函数的信用风险评价模型及实证[J].中国管理科学,2022,30(5):65-75. 被引量：25
7黄好,赖建文,梁丽边,苏玉淋.融合面部表情与驾驶行为的路怒症识别方法研究[J].装备制造技术,2022(3):26-28. 被引量：1
8张品一,薛京京.多分形互联网金融市场的风险预警模型研究[J].数量经济技术经济研究,2022,39(8):162-180. 被引量：2
9杨冰清,赵金虎.基于迁移学习的违约预测模型研究[J].阜阳师范大学学报（自然科学版）,2022,39(3):6-11.
10雷碧莹,石宝峰.农村信用社竞争力评价及其区域差异分析[J].东北农业大学学报（社会科学版）,2022,20(5):46-63.

1冯洁.应用贝叶斯判别构建信用评级模型[J].赤峰学院学报（自然科学版）,2020,36(1):13-14.
2夏利宇,张勇,鲁强,汤广瑞.结合XGBoost算法和Logistic回归的信用评级方法[J].征信,2019,0(11):56-59. 被引量：5
3宋奕勤,陈依仁.博物馆APP互动性功能设计研究[J].设计艺术研究,2020,0(2):18-22. 被引量：4
4吕明,李雯,卢云姝.互联网时代的普惠金融征信体系建设探讨[J].大众投资指南,2020,0(2):218-218.
5谭学样.转炉炼钢低过热控制工艺生产实践[J].山东冶金,2020,42(1):3-4.
6罗伟斌.基于多元线性回归函数在后张法桥梁锚下有效预应力检测中的应用研究[J].工程质量,2019,37(11):31-34. 被引量：3
7苏俊宁,叶东毅.基于样本密度峰值的不平衡数据欠抽样方法[J].计算机应用,2020,40(1):83-89. 被引量：7
8许水平,刘陶,龙洲雄.长江经济带科技企业孵化器发展水平的区域差异[J].长江大学学报（社会科学版）,2020,43(1):66-70. 被引量：1
9詹斌,孙智勇,张琳,樊思月.基于模糊综合评价法的汉江航道建设与航运发展适应性分析[J].水运管理,2020,42(4):27-29. 被引量：1
10刘钰恒,胡凯丽,樊英.芝麻信用对大学生的影响分析[J].时代金融,2020(3):104-105. 被引量：1

管理评论

2020年第3期

浏览历史

内容加载中请稍等...

基于重抽样法处理不平衡问题的信用评级模型被引量：8

参考文献5

二级参考文献57

共引文献90

同被引文献95

引证文献8

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

基于重抽样法处理不平衡问题的信用评级模型 被引量：8

参考文献5

二级参考文献57

共引文献90

同被引文献95

引证文献8

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

基于重抽样法处理不平衡问题的信用评级模型被引量：8