财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Ma...财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Management Discussion and Analysis,MD&A)并对其进行分析。考虑到现有数据中欺诈和非欺诈样本数据极度不平衡的特点,本文在分层注意力网络的基础上设计了一个更高效的财务欺诈识别模型,最终使得欺诈识别模型的F1分数和F2分数分别提高了4.1%和3.7%,所提出的算法框架能够有效提高非平衡MD&A文本数据集的分类正确率。研究结果为财务欺诈识别系统性能的提高以及其他领域长文本分类任务的预测提供了新的解决思路,并进一步验证了使用MD&A文本数据进行财务欺诈识别的有效性,为使用非平衡数据进行欺诈识别提供了直接的实证支持。展开更多
文摘财务欺诈不仅会导致会计信息失真,还会危害经济的健康发展。因此,找到一种高效的智能化欺诈识别方法具有重要的现实意义。本文基于2020—2022年美国上市公司提交到EDGAR数据库的年度报告,聚焦于报告中管理层讨论与分析部分的文本信息(Management Discussion and Analysis,MD&A)并对其进行分析。考虑到现有数据中欺诈和非欺诈样本数据极度不平衡的特点,本文在分层注意力网络的基础上设计了一个更高效的财务欺诈识别模型,最终使得欺诈识别模型的F1分数和F2分数分别提高了4.1%和3.7%,所提出的算法框架能够有效提高非平衡MD&A文本数据集的分类正确率。研究结果为财务欺诈识别系统性能的提高以及其他领域长文本分类任务的预测提供了新的解决思路,并进一步验证了使用MD&A文本数据进行财务欺诈识别的有效性,为使用非平衡数据进行欺诈识别提供了直接的实证支持。
文摘为了提升分类模型对非平衡数据的分类性能,提出一种EMWRS(expectation-maximization weighted resampling)抽样算法和WCELoss(weighted cross entropy loss function)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以F1和G-mean为评价指标,在UCI(university of California irvine)公共数据集adult上与SMOTE(synthetic minority over-sampling technique)和ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。