基于收缩近邻方法的征信缺失数据插补研究被引量：5

Research on Method of Credit Missing Data Imputation Based on Compress and Proximity

导出

摘要在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量. Massive credit data with large amount of samples and high dimensions pose serious problems of computational efficiency. This paper proposes a new missing data im- putation method ,called compress and proximity to tackle the problem. This method first compress the data through unequal probability sampling based on the proportion of missing data of samples and variables ,then select the samples which proximity to incomplete samples to compose training data based on distance, last built the Random forest model to interpo- late missing data by iterative. Australian credit scoring datasets and Chinese banks credit scoring datasets were selected for our simulation. Results show that our method reduced the computational load without decreasing too much accuracy of imputation.

作者夏利宇何晓群

机构地区中国人民大学应用统计科学研究中心

出处《数学的实践与认识》北大核心 2017年第8期147-153,共7页 Mathematics in Practice and Theory

基金教育部人文社会科学重点研究基地重大项目(15JJD910002)

关键词征信数据缺失插补样本距离随机森林 credit data imputation sample distance random forest

分类号 O212.2 [理学—概率论与数理统计]

引文网络
相关文献

参考文献1

1肖进,刘敦虎,顾新,汪寿阳.银行客户信用评估动态分类器集成选择模型[J].管理科学学报,2015,18(3):114-126. 被引量：29

二级参考文献36

1陈雷.国际信用卡欺诈与预防[J].中国信用卡,2004(6):43-47. 被引量：11
2吴冲,吕静杰,潘启树,刘云焘.基于模糊神经网络的商业银行信用风险评估模型研究[J].系统工程理论与实践,2004,24(11):1-8. 被引量：50
3夏桂梅,曾建潮.一种基于轮盘赌选择遗传算法的随机微粒群算法[J].计算机工程与科学,2007,29(6):51-54. 被引量：27
4Sustersic M, Mramor D, Zupan J. Consumer credit scoring models with limited data[ J]. Expert Systems with Applications, 2009, 36(3): 4736-4744.
5Panigrahi S, Kundu A, Sural S, et al. Credit card fraud detection: A fusion approach using Dempster-Shafer theory and Bayesian learning[ J]. Information Fusion, 2009, 10(4) : 354-363.
6Desai V S, Crook J N, Overstreet G A. A comparison of neural networks and linear scoring models in the credit union envi- ronment[ J]- European Journal of Operational Research, 1996, 95(1) : 24-37.
7Chen F L, Li F C. Combination of feature selection approaches with SVM in credit scoring[ J ]. Expert Systems with Applica- tions, 2010, 37(7):4902-4909.
8Hand D J, Henley W E. Statistical classification methods in consumer credit scoring : A review [ J ]. Journal of the RoyalStatistical Society: Series A (Statistics in Society), 1997, 160(3) : 523-541.
9Kim J, Hwang K J, Bae J K. Prediction of personal credit rates with incomplete data sets using cognitive mapping [ C ]// IEEE Computer Society Washington, 2007: 1912-1917.
10Rubin D B. Multiple Imputations for Nonresponse in Surveys[ M]. New York: John Wiley and Sons, 1987.

共引文献28

1佟孟华,邢秉昆,赵作伦,杨思涵.基于FM模型的工业企业碳减排信用风险预警研究[J].数量经济技术经济研究,2021,38(2):147-165. 被引量：8
2肖进,刘潇潇,谢玲,刘敦虎,黄静.代价敏感的目标客户选择半监督集成模型研究[J].中国管理科学,2018,26(11):186-196. 被引量：4
3迟国泰,张亚京,石宝峰.基于Probit回归的小企业债信评级模型及实证[J].管理科学学报,2016,19(6):136-156. 被引量：60
4肖斌卿,杨旸,余哲,沈才胜.小微企业信用评级模型及比较研究[J].系统工程学报,2016,31(6):798-807. 被引量：14
5叶晓枫,鲁亚会.基于随机森林融合朴素贝叶斯的信用评估模型[J].数学的实践与认识,2017,47(2):68-73. 被引量：15
6黄静,薛书田,肖进.基于半监督学习的客户信用评估集成模型研究[J].软科学,2017,31(7):131-134. 被引量：7
7李战江.最优策略下的商业银行信用风险的小样本评级模型[J].系统工程,2017,35(9):8-17. 被引量：2
8叶晓枫,许义仿.基于Isomap的树增强朴素贝叶斯分类器的信用预测[J].中州大学学报,2017,34(6):113-116. 被引量：1
9迟国泰,李鸿禧,潘明道.基于违约鉴别能力组合赋权的小企业信用评级——基于小型工业企业样本数据的实证分析[J].管理科学学报,2018,21(3):105-126. 被引量：14
10张润驰,杜亚斌.基于粒子群优化聚类算法的多预测器信用评估模型[J].系统工程,2017,35(10):154-158. 被引量：4

同被引文献50

1陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
2Sun, Dongxia, Li, Jianping, Wei, Liwei.Credit risk evaluation using adaptive Lq penalty SVM with Gauss kernel[J].Journal of Southeast University(English Edition),2008,24(S1):33-36. 被引量：1
3李明方,张化祥.针对不平衡数据集的Bagging改进算法[J].计算机工程与应用,2010,46(30):40-42. 被引量：12
4张景肖,魏秋萍,姜玉霞,张波.基于两阶段思想处理拒绝推断的信用评分模型[J].数理统计与管理,2012,31(6):1049-1060. 被引量：4
5吴俊杰,赵鹏.非线性噪声数据集上基于随机森林的空缺值填补算法[J].计算机应用与软件,2013,30(7):51-53. 被引量：7
6方匡南,章贵军,张惠颖.基于Lasso-logistic模型的个人信用风险预警方法[J].数量经济技术经济研究,2014,31(2):125-136. 被引量：110
7孟杰,李春林.基于随机森林模型的分类数据缺失值插补[J].统计与信息论坛,2014,29(9):86-90. 被引量：27
8史小康,马学俊.个人信用评级模型的指标选择方法[J].统计与决策,2014,30(23):41-43. 被引量：9
9何晓群,胡小宁.个人信用评价影响因素决策分析[J].征信,2015,33(2):11-14. 被引量：4
10肖进,刘敦虎,顾新,汪寿阳.银行客户信用评估动态分类器集成选择模型[J].管理科学学报,2015,18(3):114-126. 被引量：29

引证文献5

1夏利宇,何琬.信用评级模型构建的统计学解读[J].征信,2019,0(6):44-48. 被引量：4
2关玉欣,李雷孝.时空大数据的缺失数据流关联修复仿真[J].计算机仿真,2021,38(1):340-343. 被引量：2
3蒋瑶,赵礼峰.基于不平衡文本分类的改进Stacking模型[J].计算机与数字工程,2021,49(8):1594-1598. 被引量：1
4樊东醒,叶春明.一种面向高维缺失不平衡数据的信用评估方法[J].计算机应用研究,2021,38(9):2667-2672. 被引量：1
5罗清雷,高宝琪,魏伟,马捍超.基于增长模型的电力设备缺失数据筛查算法研究[J].科技通报,2019,0(8):182-185. 被引量：2

二级引证文献10

1夏利宇,刘赛可,何晓群.信用评级模型的数据离散化研究[J].数学的实践与认识,2019,49(23):60-66. 被引量：3
2夏利宇,张勇,鲁强,汤广瑞.结合XGBoost算法和Logistic回归的信用评级方法[J].征信,2019,0(11):56-59. 被引量：5
3郭畅.基于不平衡数据的个人信贷违约测度探索[J].集美大学学报（自然科学版）,2021,26(1):89-96.
4雷一鸣.地方政府信用水平对PPP产品定价的影响分析[J].现代商业,2021(4):98-100.
5谢春.DBSCAN和逻辑回归混合策略方法在锅炉燃烧故障诊断中的应用[J].应用科技,2022,49(3):101-105. 被引量：1
6秦健创,陈瑛.略论信息安全视域下公安大数据平台建设[J].北京警察学院学报,2022(4):75-80.
7顾天下,刘勤明.面向高维和不平衡数据的供应链金融信用评价[J].计算机应用研究,2022,39(11):3396-3401. 被引量：2
8向新宇,姚海燕,於志渊,樊立波,周炳华.基于5G数据编码算法的电力物联网终端任务接入安全认证研究[J].电气自动化,2023,45(1):81-83.
9赵超阳,张锋,康郁堃.继电保护设备智能运维数据的一体化挖掘方法[J].微型电脑应用,2023,39(2):127-130. 被引量：1
10申风玲,俞文瑾,印青,贾蓉蓉.基于半监督谱聚类的电力客户群体细分模型构建[J].自动化技术与应用,2023,42(12):85-89.

1尤垂桔,赵绍玉.基于信息增益的征信数据关联规则挖掘模型设计[J].甘肃联合大学学报（自然科学版）,2010,24(2):70-73.
2朱文艺,黄志罡.数控机床轨迹控制原理的仿真研究与实现[J].武汉工程职业技术学院学报,2006,18(1):6-9. 被引量：1
3柳旭,祁耀斌.数据挖掘在桥梁健康监测智能评估系统中的应用[J].微计算机信息,2006,22(08X):30-32. 被引量：3
4于力超,金勇进,王俊.缺失数据插补方法探讨——基于最近邻插补法和关联规则法[J].统计与信息论坛,2015,30(1):35-40. 被引量：21
5周纯杰,何顶新.一种通用平面曲线的数据采样插补方法[J].电气自动化,1993,15(1):67-68. 被引量：1
6高峰,迟春梅.决策表中属性的重排[J].山东大学学报（工学版）,2013,43(5):6-12.
7大数据征信：下一片蓝海？[J].网络运维与管理,2015,0(7):9-9.
8黎明,严超华,刘高航.进化策略求解Hopfield神经网络[J].中国图象图形学报（A辑）,2000,5(7):603-608.
9李岩.产品化演进[J].信息网络,2010(4):66-68.
10于金霞,蔡自兴,段琢华.基于激光雷达的环境特征提取方法研究[J].计算机测量与控制,2007,15(11):1550-1552. 被引量：6

数学的实践与认识

2017年第8期

浏览历史

内容加载中请稍等...

基于收缩近邻方法的征信缺失数据插补研究被引量：5

参考文献1

二级参考文献36

共引文献28

同被引文献50

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于收缩近邻方法的征信缺失数据插补研究 被引量：5

参考文献1

二级参考文献36

共引文献28

同被引文献50

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于收缩近邻方法的征信缺失数据插补研究被引量：5