基于不平衡样本的互联网个人信用评估研究被引量：21

Internet Personal Credit Assessment Research Based on the Perspective of Unbalanced Sample

下载PDF

导出

摘要国内互联网金融和消费信贷的迅猛发展,催生了互联网个人征信的巨大需求。针对不平衡的互联网征信数据,采用随机过抽样、随机欠抽样和SMOTE方法进行数据平衡化,并建立决策树、支持向量机和随机森林等分类模型对互联网个人信用评估进行研究,结果表明:互联网大数据背景下的个人信用评估研究具有可行性;过抽样方法可以较好地提高互联网个人信用评估模型的分类性能;构建信用等级较好用户的一般特质,即年龄在18~30岁之间、工资水平在2 000元以上、用户页面浏览量多集中在10~20次之间和申请贷款时间相对较早等。在对互联网个人信用评估中变量有效性进行探索的基础上,反驳了"采用的变量越多结果就越准确"的说法。 With the rapid development of the internet financeand consumer credit,it has given rise to the huge demand for internet personal credit reporting.Based on imbalanced of internet credit reporting data,we used the over-sampling,under-sampling and SMOTE,then established the decision tree and support vector machine and random forest model,selected F-measure and AUC value to evaluate the models and digs out the general feature of high credit rating.Our results found that the credit assessment is feasible under the background of the internet big data,and the over-sampling method improves the classification of the model.We found that the general feature of high credit rating is the age-group of 18-30,the wage levels range from more than 2,000 yuan per month,10-20 times page views and loan early.Under the variable effectiveness research,we effectively avoid variable involving user privacy information.

作者李毅姜天英刘亚茹

机构地区山西财经大学统计学院中国人民大学统计学院

出处《统计与信息论坛》 CSSCI 北大核心 2017年第2期84-90,共7页 Journal of Statistics and Information

基金全国统计科学重点研究课题<基于移动通信大数据的流动人口精细化挖掘研究>(2015433) 山西省高等学校创新人才支持计划资助项目(晋教科〔2016〕3号)

关键词互联网征信不平衡样本重抽样随机森林 internet credit reporting imbalanced data resampling random forest

分类号 C812 [社会学—统计学] O212.2 [理学—概率论与数理统计]

引文网络
相关文献

参考文献2

1柳向东,李凤.大数据背景下网络借贷的信用风险评估——以人人贷为例[J].统计与信息论坛,2016,31(5):41-48. 被引量：34
2李扬,李竟翔,王园萍.基于AUC回归的不平衡数据特征选择模型研究[J].统计与信息论坛,2015,30(5):10-16. 被引量：12

二级参考文献29

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2刘开瑞.财务预警分析指标[J].生产力研究,2007(4):138-141. 被引量：21
3陈封能,斯坦巴赫,库玛尔.数据挖掘导论[M].范明,范宏建,等译.北京:人民邮电出版社,2011.
4Tibshirani tL Regression Shrinkage and Selection Via the Lasso l-J]. Journal of the Royal Statistical Society (Series B), 1996(1).
5Li Y, Qin Y, Xie Y, Tian F. Grouped Penalization Estimation of Osteoporosis Data in Traditional Chinese Medicine I-J]. Journal of Applied Statistics, 2013(4).
6Chawla N V, t3owyer K W, Hall L O, Kegelmeyer W P. SMOTE: Synthetic Minority Over-Sampling Technique [J]. Journal of Artificial Intelligence Research,2002(16).
7Ma S, Huang J. Regularized ROC Method for Disease Classification and Biomarker Selection with Mieroarray Data [J]. Bioinformaties, 2005(24).
8Song X, Ma S. Penalized Variable Selection with U-Estimates [J]. Journal of Nonparametric Statistics, 2010(4).
9Ma S, Huang J. Combining Multiple Markers for Classification Using ROC [J]. Biometrics, 2007(3).
10Zhang C. Nearly Unbiased Variable Selection Under Minimax Concave Penalty [J]. The Annals of Statistics, 2010(2).

共引文献44

1迟国泰,董冰洁.基于借款描述的违约判别研究[J].管理评论,2022,34(11):261-271. 被引量：1
2谭秋言,谭潇寒.基于ODR-ADASYN-SVM模型的高新技术企业财务危机预警研究[J].农村经济与科技,2020,0(1):141-145. 被引量：1
3王冬一,华迎,朱峻萱.基于大数据技术的个人信用动态评价指标体系研究——基于社会资本视角[J].国际商务（对外经济贸易大学学报）,2020(1):115-127. 被引量：13
4李扬,李竟翔,马双鸽.不平衡数据的企业财务预警模型研究[J].数理统计与管理,2016,35(5):893-906. 被引量：27
5谢娟英,王明钊,胡秋锋.最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法[J].陕西师范大学学报（自然科学版）,2017,45(1):13-22. 被引量：14
6郭晓云,吴永红.基于支持向量机的P2P网络借贷投资决策分析[J].中国科技论文,2017,12(5):542-547. 被引量：2
7罗钦芳,丁国维,傅馨,蔡舜,陈熹.基于“多层次分类”方法的异常P2P网贷借款识别[J].管理工程学报,2017,31(3):201-209. 被引量：8
8张岩,王晖,李宛娴,王欣妍.互联网信用评分机制的潜在缺陷与改进思路——基于“芝麻信用”的调查研究[J].金融监管研究,2017(9):48-65. 被引量：4
9胡茜茜,朱永祥.高校学生网络借款风险生成路径、机理及控制[J].财会通讯（中）,2017,0(11):109-114. 被引量：4
10周正龙,马本江,胡凤英.P2P网络借贷市场审核机制分析[J].商业研究,2017(11):141-152.

同被引文献216

1李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：7
2张朝辉,刘佳佳,冉惠.基于贝叶斯与神经网混合算法的电商信用评价方法研究[J].情报科学,2020,0(2):81-87. 被引量：9
3都珂珂,黄全生,张玥.我国个人信用评估模型综述[J].经营与管理,2021(1):166-172. 被引量：3
4张德栋,张强.基于神经网络的企业信用评估模型[J].北京理工大学学报,2004,24(11):982-985. 被引量：12
5刘艳霞,职为梅,杨亮.稀有类分类问题研究[J].微型机与应用,2005,24(6):54-56. 被引量：6
6石庆焱.一个基于神经网络——Logistic回归的混合两阶段个人信用评分模型研究[J].统计研究,2005,22(5):45-49. 被引量：39
7何跃,蒋国银,刘学生.基于BP神经网络的企业信用评估模型[J].经济数学,2005,22(1):64-71. 被引量：7
8卢玉平.对我国企业信用体系建设的思考[J].生产力研究,2005(5):95-97. 被引量：3
9李志辉,李萌.我国商业银行信用风险识别模型及其实证研究[J].经济科学,2005(5):61-71. 被引量：33
10张荣,陈银忠,周勇.上市公司资产规模对公司信用风险的影响[J].统计与决策,2006,22(2):61-62. 被引量：6

引证文献21

1王茂光,冀昊悦,王天明.一种基于层次聚类和模拟退火的选择性集成算法的风控模型研究[J].计算机科学,2022,49(S02):201-207. 被引量：1
2张丽颖,杨若瑾.基于机器学习的个人贷款违约预测模型的应用研究[J].金融监管研究,2022(6):46-59. 被引量：4
3荣飞琼,郭梦飞.基于大数据的跨境电商平台供应商信用评估研究[J].统计与信息论坛,2018,33(3):100-107. 被引量：36
4宋艳,白治江.基于扩展近邻SMOTE过采样的SVM分类器[J].现代计算机,2018,24(10):34-38. 被引量：3
5王珊珊.大数据跨境电商平台征信体系研究[J].哈尔滨师范大学社会科学学报,2018,9(4):104-106. 被引量：2
6韩嵩,李晓俊.大数据背景下我国企业信用研究综述——基于CSSCI检索论文的分析[J].金融理论与实践,2018(10):107-113. 被引量：6
7郭冰楠,吴广潮.改进的随机平衡采样Bagging算法的网络贷款研究[J].计算机与现代化,2019(4):11-16. 被引量：1
8胡忠义,王超群,陈远,吴江,鲍玉昆.基于多分类器动态集成的P2P违约风险评估[J].管理学报,2019,16(6):915-922. 被引量：4
9胡婵娟,于莲芝,薛震.基于Spark框架的用于金融信贷风险控制的加权随机森林算法[J].小型微型计算机系统,2020,41(2):369-374. 被引量：3
10张弘媛,卢焱,张静,杨青倬,张永力.基于大数据的供应商信用评估方法研究[J].自动化技术与应用,2020,39(7):51-53. 被引量：4

二级引证文献104

1郑煜.论债券信用研究方法演变及信用研究体系构建[J].中外企业文化,2020(7):37-38.
2李晓明,王志超.商业银行外汇业务数字化转型的经验与建议[J].新金融,2023(6):22-27. 被引量：1
3谢荻帆.基于机器学习的保险业风险监测预警模型研究[J].金融监管研究,2023(5):101-114.
4吴闽真.大数据时代我国跨境电商发展现状及路径创新[J].科技经济导刊,2019,0(36):232-232. 被引量：5
5秦响应,魏晓光,申晨,陈刚.开放银行生态圈建设及路径选择——兼析区块链赋能开放银行数据共享[J].价格理论与实践,2022(7):117-121. 被引量：5
6李丹.论算法歧视消费者的侵权责任认定——基于司法裁判的实证考察[J].当代法学,2023,37(6):75-85. 被引量：2
7陈莉霞.大数据背景下跨境电商平台供应商信用评估研究[J].大众投资指南,2021(1):34-35. 被引量：1
8阳彩霞,阳平华,何杰.基于BP神经网络的供应商信用评价分析——以造价通为例[J].轻工科技,2022,38(4):50-52.
9王珊珊,查林涛.基于XGBoost的跨境电商企业征信等级预测研究[J].韶关学院学报,2018,39(6):12-15. 被引量：2
10王保乾,邓菲.基于消费者偏好选择的短租房市场定价因素研究[J].统计与信息论坛,2018,33(7):92-99. 被引量：3

1张微.基于数据挖掘的个人信用评估技术研究[J].黑龙江科技信息,2013(12):7-7.
2林镇鸿,陶应根,吴二娇.个人信用评估模型的选择与修正[J].科技创业月刊,2006,19(4):100-101.
3王向文.中美个人征信体系分析[J].科技创业月刊,2006,19(3):128-129. 被引量：3
4管娜娜.胶子非弹性散射过程对夸克胶子等离子体中双轻子产生的影响[J].物理学报,2016,65(14):72-75. 被引量：2
5薛薇.非平衡数据集的改进SMOTE再抽样算法[J].统计研究,2012,29(6):95-98. 被引量：21
6爱逛街，更长寿[J].恋爱．婚姻．家庭（养生）,2014,0(5):4-4.
7钱永广.父爱不老[J].老年教育（长者家园）,2015,0(7):34-34.
8瑞典：个人信用有多重要[J].东西南北,2013(7):5-5.
9结识朋友[J].海峡儿童（读写）（7-9年级）,2009(4):3-3.
10高速运动时间是否会真的变慢？[J].武警工程学院学报,2006,22(3):45-45.

统计与信息论坛

2017年第2期

浏览历史

内容加载中请稍等...

基于不平衡样本的互联网个人信用评估研究被引量：21

参考文献2

二级参考文献29

共引文献44

同被引文献216

引证文献21

二级引证文献104

相关作者

相关机构

相关主题

浏览历史

基于不平衡样本的互联网个人信用评估研究 被引量：21

参考文献2

二级参考文献29

共引文献44

同被引文献216

引证文献21

二级引证文献104

相关作者

相关机构

相关主题

浏览历史

基于不平衡样本的互联网个人信用评估研究被引量：21