摘要
公司违规研究一般采用传统的线性回归模型处理历史数据,本文则构建了基于机器学习算法的公司违规预测模型并实施检验。研究发现:(1)通过比对分析可知,广为使用的线性回归模型不能充分挖掘数据信息并进行有效预测,机器学习的树模型(RandomForest和GBDT)和神经网络模型(RNN和LSTM)的预测效果更优;(2)采用SHAP方法探寻公司违规的重要预警因子及其贡献度,发现公司治理相关变量对违规预警具有重要贡献,传统线性回归模型过分强调财务数据的预警能力,弱化了公司治理因子对违规预警的贡献;(3)进一步采用SHAP方法将RandomForest和GBDT模型的运作过程和贡献分布可视化,挖掘重要因子对公司未来违规的影响机理,并计算主要影响因子的警惕阈值。本研究实现了公司违规行为预测研究方法的创新,对投资者和监管机构的决策优化具有借鉴意义。
The traditional regression model is usually used to investigate corporate fraud.This paper develops a corporate fraud prediction model using a machine learning approach.(1)We find that our machine learning models,the tree model,and neural network,yield much better prediction performance than the commonly used method of linear regression.(2)We use SHAP method to calculate the importance values and contribution level of each feature,and find corporate governance,especially external corporate governance,has an important contribution to the corporate fraud predictions.By contrast,we find that the linear model overemphasizes the predictive ability of financial data and weakens the contribution of corporate governance factors to corporate fraud prediction,emphasizing the application value of the machine learning method in the field of financial accounting.(3)Furthermore,we use SHAP method to visualize the GBDT and Random Forest model process to analyze the impact mechanism,and calculate the threshold of the main influence factors.This paper contributes to the methodology and offers decision-making useful information for investors and market supervision.
作者
李莹
曲晓辉
LI Ying;QU Xiao-hui
出处
《财务研究》
CSSCI
2022年第4期54-66,共13页
Finance Research
基金
教育部人文社会科学重点研究基地重大项目(16JJD790035)
江苏高校哲学社会科学研究项目(2021SJA0356)
江苏高校优势学科建设工程资助项目(PAPD)
深圳市人文社会科学重点研究基地哈尔滨工业大学(深圳)大数据会计与决策研究中心基金(KP191001)。
关键词
违规预测
机器学习
传统预测模型
因子重要性
可视化
corporate fraud prediction
machine learning
traditional prediction models
factor importance
visualization