客户信用评估半监督协同训练模型研究被引量：14

A Semi-Supervised Co-Training Model for Customer Credit Scoring

导出

摘要在现实的很多信用评估问题中,由于对样本进行类别标记需要花费大量的人力、财力和物力,往往只能获取少量有类别标签的样本来训练分类模型,而把数据库中大量无类别标签的客户样本舍弃。为解决这一问题,本研究引入半监督学习技术,并将其与多分类器集成技术中的随机子空间方法(Random Subspace,RSS)相结合,构建了类别不平衡环境下基于RSS的半监督协同训练模型RSSCI。该模型主要包括三个阶段:1)使用RSS方法训练得到若干基本分类器;2)从大量无类别标签数据集中选择性标记一部分最合适的样本加入到原始训练集中;3)在最终的训练集上训练分类模型,并对测试集样本进行分类。在三个客户信用评估数据集上进行实证分析,结果表明,RSSCI模型的信用评估性能不仅优于常用的监督式集成信用评估模型,也优于已有的一些半监督协同训练信用评估模型。 Customer credit scoring is one of the most important issues in customer relationship management(CRM).In some real credit scoring issues,many customer samples without class labels are abandoned and just only a few samples with class labels can be used to train the classification models,because it costs a lot of manpower,financial and material resources for labeling the samples.Furthermore,single classification model is difficult to achieve the accurate classification of the whole sample space as the current customer credit scoring problem with class imbalance characteristic.To solve the two problems,semi-supervised learning is introduced and combined with random subspace(RSS)in multiple classifiers ensemble,and then RSS is proposed based semi-supervised co-training model for class imbalance,RSSCI.This model includes the following three phases:1)Obtains many base classifiers by RSS;2)Labels some most appropriate samples in U which obtains lots of samples without class labels.Firstly,3base classifiers with the best performance are selected to classify the samples in U,the samples with the same forecasted class are put into the candidate set,and then the label confidence of each sample is calculated.Considering the class imbalance of the training data,the candidate are divided set into the positive and negative subsets,and the samples with higher confidence are selected from the two subsets according to the ratio of two classes in the original training set and added the original training set;3)Trains the classification model in the final training set,and classifies the test set.Empirical analysis is conducted in three credit scoring datasets(German,Australia,UK-thomas,all of them are imbalanced data sets of a type distribution;moreover,German and Australia are from the UCI international public database),and the results show that the performance of RSSCI model is superior to the common used supervised ensemble credit scoring models and some existing semi-supervised CO-training credit scoring models,demonstrating the superiority of the RSSCI model of selective mechanism of labeling samples.In CRM,there are a lot of customer classification problems,such as customer churn prediction,customer targeting,which are similar to customer credit scoring.Thus,the model proposed in this study can also be used to solve the above problems,and thus is expected to achieve satisfaction classification performance.

作者肖进薛书田黄静谢玲顾新

机构地区四川大学商学院四川大学公共管理学院四川大学软科学研究所

出处《中国管理科学》 CSSCI 北大核心 2016年第6期124-131,共8页 Chinese Journal of Management Science

基金国家自然科学基金资助项目(71471124 71571126) 四川省青年基金(2015RZ0056) 四川省社科规划项目(SC14C019) 四川大学优秀青年基金项目(2013SCU04A08) 四川大学哲学社会科学青年学术人才基金(skqx201607) 四川省教育厅创新团队资助项目(13TD0040)

关键词信用评估类别分布不平衡半监督协同训练 RSS credit scoring class imbalance semi-supervised co-training RSS

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1Zhi-Hua Zhou,Ming Li.Tri-training: exploiting unlabeled data using three classifiers[].Knowledge and Data Engineering IEEE Transactions on.2005
2Hansen L K;Salamon P.Neural network ensembles,1990(10).

共引文献1

1陆静.基于数据挖掘分类规则的决策树算法改进研究[J].才智,2013(28):268-269.

同被引文献132

1张建云,缪朝东.委托-代理视角下的职业院校产教融合实体治理:逻辑、困境与策略[J].国家教育行政学院学报,2021(4):41-47. 被引量：11
2吴冲,夏晗.基于支持向量机集成的电子商务环境下客户信用评估模型研究[J].中国管理科学,2008,16(S1):362-367. 被引量：18
3徐晓萍,张顺晨,敬静.关系型借贷与社会信用体系的构建——基于小微企业演化博弈的视角[J].财经研究,2014,40(12):39-50. 被引量：29
4陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7261
5管七海,冯宗宪.信用违约概率测度研究:文献综述与比较[J].世界经济,2004,27(11):40-54. 被引量：36
6王克敏,罗艳梅.中国上市公司对外担保与财务困境研究[J].吉林大学社会科学学报,2006,46(5):106-113. 被引量：23
7王凯,黄世祥.行业内中小企业信用评估模型及应用[J].数学的实践与认识,2008,38(4):64-77. 被引量：6
8李凯,崔丽娟.集成学习算法的差异性及性能比较[J].计算机工程,2008,34(6):35-37. 被引量：22
9薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
10叶云龙,杨明.基于随机子空间的多分类器集成[J].南京师范大学学报（工程技术版）,2008,8(4):87-90. 被引量：4

引证文献14

1肖进,刘潇潇,谢玲,刘敦虎,黄静.代价敏感的目标客户选择半监督集成模型研究[J].中国管理科学,2018,26(11):186-196. 被引量：4
2陈奕延,李晔.基于模糊综合评价的失信企业惩罚对策[J].技术经济与管理研究,2018(5):8-12. 被引量：2
3李帷韬,陶海,吴四茜,王建平,徐晓冰.基于深度学习的青梅品级半监督智能认知方法[J].计算机应用与软件,2018,35(11):245-252. 被引量：1
4刘颖.供应链金融大数据分布特征的分析与洞见[J].计算机科学,2019,46(2):1-10. 被引量：7
5程鑫,常德民,李治平.我国信用评价领域的知识图谱与前沿态势分析[J].太原学院学报（社会科学版）,2019,20(6):20-29. 被引量：1
6王宁,王澍,张江,陶鹏.大数据背景下融资企业信用特征分析[J].经济研究导刊,2019,0(35):131-132. 被引量：2
7朱菁婕,吴怀岗.企业信用评估指标体系及信用评估模型研究[J].南京师范大学学报（工程技术版）,2020,20(3):81-86. 被引量：4
8蒋翠清,许天歌,王钊.一种融入拒绝推断的P2P网络借贷违约风险评价方法[J].管理工程学报,2020,34(6):165-172. 被引量：3
9鄢澜,李思涵,肖毅,寇宇轩,刘敦虎,肖进.基于Metacost的客户信用评估半监督异构集成模型研究[J].中国管理科学,2022,30(12):211-221.
10刘璐.产教融合信息不对称的大数据治理逻辑与路径[J].教育评论,2023(6):71-76. 被引量：3

二级引证文献63

1迟国泰,董冰洁.基于借款描述的违约判别研究[J].管理评论,2022,34(11):261-271. 被引量：3
2朱鹏飞,唐勇,洪晓梅,卢团团.P2P网贷利率存在波动溢出吗?——基于时-频域溢出指数的实证研究[J].中国管理科学,2021(4):82-92. 被引量：4
3李哲,迟国泰.基于最大指标区分度与最优相对隶属度的上市公司信用风险研究[J].中国管理科学,2021(4):1-15. 被引量：9
4李富盛,陈伟松,钱斌,郭斌,肖勇,周密,罗奕.面向低压配电网智能电表误差监测的LightGBM-EM-EC多变量缺失数据高效重建[J].中国电机工程学报,2022,42(S01):95-105. 被引量：7
5张健.关于我国P2P网络借贷发展概况浅析[J].时代金融,2020,0(3):125-126. 被引量：1
6马巍.基于BP神经网络的辽宁省小额信贷信用评估模型研究[J].投资与创业,2021(16):15-19.
7安华章,黄文林,陈峥,刘志国,樊代明.p53重组腺病毒载体的构建[J].第四军医大学学报,2000,21(2):220-222. 被引量：1
8司海涛.学历的年代效应与借款人行为——来自人人贷网贷平台的证据[J].科技经济市场,2019(8):112-114. 被引量：1
9刘瑞华,阳桂桃.大数据技术在供应链金融中的应用分析[J].时代经贸,2019,0(24):80-82. 被引量：4
10韩嵩,韩秋弘.半监督学习研究的述评[J].计算机工程与应用,2020,56(6):19-27. 被引量：21

1张明,刘念祖.电子商务信用管理的支持向量机应用[J].中国管理信息化（综合版）,2007,10(9):81-83. 被引量：2
2赵亚鹏,丁以中.客户信用评估模型[J].上海海事大学学报,2008,29(2):58-61. 被引量：2
3王莉莉,曹敢,石亮,王东升.一种基于Logistic回归和分类树的客户信用评估方法研究[J].江苏科技大学学报（自然科学版）,2007,21(B12):63-69. 被引量：3
4吴昌钱.客户信用评估中如何应用分布式数据挖掘[J].计算机光盘软件与应用,2010(8):82-83.
5张建军,陈莘萌.一个网络并行计算的性能预测模型[J].武汉大学学报（自然科学版）,1999,45(1):49-52.
6胡小生.改进随机子空间与决策树相结合的不平衡数据分类方法[J].佛山科学技术学院学报（自然科学版）,2013,31(5):22-26.
7张晓燕,兰守彬.如何寻找海外客户及客户信用评估[J].黑龙江科技信息,2012(8):173-173.
8彭喜元,郭嘉,王建民.基于随机子空间与多储备池的分类方法[J].仪器仪表学报,2011,32(11):2487-2492. 被引量：4
9宋相法,曹志伟,郑逢斌,焦李成.基于随机子空间核极端学习机集成的高光谱遥感图像分类[J].计算机科学,2016,43(3):301-304. 被引量：8
10刘韧,张喆.分布式数据挖掘在客户信用评估中的应用[J].微型电脑应用,2004,20(9):3-4. 被引量：1

中国管理科学

2016年第6期

浏览历史

内容加载中请稍等...

客户信用评估半监督协同训练模型研究被引量：14

参考文献2

共引文献1

同被引文献132

引证文献14

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

客户信用评估半监督协同训练模型研究 被引量：14

参考文献2

共引文献1

同被引文献132

引证文献14

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

客户信用评估半监督协同训练模型研究被引量：14