基于文本挖掘技术的信贷欺诈研究

Research on credit fraud based on text mining technology

下载PDF

导出

摘要有效识别贷款申请欺诈倾向是维护借贷双方利益的首要前提,是金融借贷市场一直以来关注的重点。随着文本挖掘技术的发展,贷款申请人提供的贷款描述,使其传达的信息受到更多关注。研究中利用贷款描述文本对欺诈行为进行识别,有助于拓宽非结构化文本数据在金融市场日常交易中的应用。利用深度学习模型Transformer对文本信息进行提取,再用自动编码器对文本信息进一步抽取,最终得到文本信息测度。基于17个指标构建基准机器学习模型,进一步加入文本信息测度作为新的预测变量。样本外预测结果显示,文本信息测度有助于提升模型拟合效果,在不同模型中提升精度介于0.68%-1.42%之间,表明结果具有稳健性;特征重要性结果也表明,文本信息测度在模型预测结果的贡献度中位于前4。验证了文本信息在欺诈识别中的作用。 Effective identification of fraudulent tendencies in loan applications is the primary prerequisite for safeguarding the interests of both borrowers and lenders, and has always been the focus of the financial lending market. With the development of text mining technology, the information conveyed by loan descriptions provided by loan applicants has received more attention. The use of loan description texts to identify fraudulent behaviors in the research helps to broaden the use of unstructured text data in daily transactions in the financial market applications. We use the deep learning model transformer to extract the text information, the autoencoder to further extract the text information, and finally get the text information measurement. A benchmark machine learning model is constructed based on 17 indicators, and text information measures are further added as new predictor variables. The prediction results show that the text information measure helps to improve the model fitting effect, and the improvement accuracy is between 0.68% and 1.42% in different models, indicating that the results are robust. The feature importance results also show that the text information measure is in the top 4. Empirical results validate the role of textual information in fraud detection.

作者刘娟娟梁龙跃蔡铉烨 LIU Juanjuan;LIANG Longyue;CAI Xuanye(School of Economics,Guizhou University,Guiyang 550025,China;School of Statistics and Mathematics,Central University of Finance and Economics,Beijing 102206,China)

机构地区贵州大学经济学院中央财经大学统计与数学学院

出处《智能计算机与应用》 2022年第7期52-58,68,共8页 Intelligent Computer and Applications

基金国家自然科学基金资助项目(52000045) 贵州大学研究生创新人才计划项目(CJ202169)。

关键词文本挖掘反欺诈 TRANSFORMER 自动编码器 text mining anti-fraud transformer autoencoder

分类号 F830 [经济管理—金融学]

引文网络
相关文献

参考文献8

1沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学（季刊）,2019,18(4):1153-1186. 被引量：86
2罗志芳.银行在信用证结算中的风险及其防范[J].中国金融,1998(11):26-27. 被引量：1
3严华,胡孟梁,蔡瑞英.防止信用卡欺诈的系统设计[J].微计算机信息,2006,22(04X):63-65. 被引量：6
4何杨,李洪心.基于模糊二范数二次曲面支持向量机的信用评分研究[J].统计与决策,2018,0(5):66-70. 被引量：5
5刘岚,王霞,林红旭,高建时.基于混合BP神经网络算法的信用卡消费行为风险预测[J].科技管理研究,2011,31(17):206-210. 被引量：4
6陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
7琚春华,陈冠宇,鲍福光.基于kNN-Smote-LSTM的消费金融风险检测模型——以信用卡欺诈检测为例[J].系统科学与数学,2021,41(2):481-498. 被引量：16
8武建奇,何姝.互联网贷款欺诈的形成机理与量化评估[J].技术经济与管理研究,2020(11):80-84. 被引量：1

二级参考文献63

1崔岩,祁伟,庞海龙,赵辉.融合协同过滤和XGBoost的推荐算法[J].计算机应用研究,2020,37(1):62-65. 被引量：11
2宋双杰,曹晖,杨坤.投资者关注与IPO异象——来自网络搜索量的经验证据[J].经济研究,2011,46(S1):145-155. 被引量：154
3张晨,柳文.我国金融机构欺诈风险的案例研究[J].中国软科学,2009(S2):257-263. 被引量：1
4金百东.小型数控采集系统的软件设计[J].微计算机信息,2005,21(1):73-74. 被引量：4
5刘立平,牛熠.遗传算法综述[J].东莞理工学院学报,2005,12(3):48-52. 被引量：25
6孙艳丰.基于遗传算法和禁忌搜索算法的混合策略及其应用[J].北京工业大学学报,2006,32(3):258-262. 被引量：29
7王宪全,陈李刚.基于遗传算法和BP神经网络的信用风险测量模型[J].哈尔滨工业大学学报（社会科学版）,2006,8(5):87-92. 被引量：8
8RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representations by error propagation: Parallel Data Processing [M]. Cambridge, MA: The MITPress, 1986:318-362.
9Dantong Yu,Gholamhosein Sheikholeslamit and Aidong Zhang.FindOut:Finding Outliers in Very Large Datasets.Knowledge and Information Systems,2002.
10(加)Jiawei Han Micheline Kamber著范明孟小峰等译.数据挖掘概念与技术.北京:机械工业出版社,2001.

共引文献124

1严嘉钰,贝世之,章乐.基于VAE-GAN算法的信用卡欺诈检测模型[J].北京电子科技学院学报,2022,30(4):70-81.
2高峰,吴谣,肖云凯.大数据局的设立对公司价值的影响——来自A股的实证研究[J].投资研究,2022,41(8):104-114.
3杨苏鹏.投资者情绪与股市收益的关系研究[J].投资与创业,2023,34(5):10-12.
4尹必超,孔东民,季绵绵.散户积极主义提高上市公司审计质量吗[J].会计研究,2022(10):157-178. 被引量：6
5杨达森,丛颖男.基于文本的我国可持续发展信息披露趋势分析[J].中国注册会计师,2024(6):21-30.
6林建浩,陈良源,罗子豪,张一帆.央行沟通有助于改善宏观经济预测吗?——基于文本数据的高维稀疏建模[J].经济研究,2021,56(3):48-64. 被引量：30
7邱子迅,周亚虹.数字经济发展与地区全要素生产率——基于国家级大数据综合试验区的分析[J].财经研究,2021,47(7):4-17. 被引量：203
8徐鲲,张皓月,宋正雯.考虑语调的区域创新政策测度指标改进及评价:基于七个主要经济区政策文本挖掘的研究[J].北京联合大学学报（人文社会科学版）,2023,21(5):60-70.
9陈瑶雯,冯文博.新形势下数据集成驱动金融业数字化转型的现状与挑战[J].广西大学学报（哲学社会科学版）,2022,44(4):131-139. 被引量：7
10刘昭岭,陈楠,刘想.基于BP神经网络的银行卡欺诈研究[J].中国商界,2009(12):31-32. 被引量：1

1冯帅,何利.浅析“校园贷”的现状及预防[J].科技资讯,2019,17(9):219-220.
2滕张怡,茅亦刚,梁方楚.杭州市中小企业民间借贷发展现状及影响因素浅析[J].宁波工程学院学报,2019,31(1):78-84.
3刘静,赵东明,田雷,刘帅,崔建军.基于多方安全计算的电信欺诈识别系统研究[J].通讯世界,2022,29(1):52-54.
4刘名.基层农业水利建设与管理措施[J].花木盆景（上半月）,2022(5):68-69.
5蒋俏蕾,张自中.隐蔽而日常:游戏霸凌机制探究[J].中国青年研究,2022(7):72-80.
6孙锡仕,成俊芬,张金健,梁正诗,黄杰雯,彭敏,黎雄斌.体质量指数、超阈值鼾声时间与阻塞性睡眠呼吸暂停严重程度的相关性[J].广东医科大学学报,2022,40(3):276-281.
7周仁才.融合机器学习算法的期权定价[J].系统管理学报,2022,31(3):476-485. 被引量：5
8张魏.高速铁路瓦斯隧道施工中的安全管理措施[J].四川水泥,2022(2):258-259. 被引量：5
9韩丹萍.基层畜牧兽医动物防疫存在的问题及改进措施[J].畜牧兽医科学（电子版）,2021(23):101-102. 被引量：3
10贺建鹏.大地电磁测深法在地热勘查中的应用[J].矿业装备,2022(3):78-80. 被引量：1

智能计算机与应用

2022年第7期

浏览历史

内容加载中请稍等...

基于文本挖掘技术的信贷欺诈研究

参考文献8

二级参考文献63

共引文献124

相关作者

相关机构

相关主题

浏览历史