期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
非平衡样本集下公私合作(PPP)可融资性评价——基于改进边界样本自适应算法
1
作者 沈俊鑫 程墙 吴以 《科技管理研究》 CSSCI 北大核心 2021年第16期218-226,共9页
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价项目的可融资性。通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本的识别能力,针对我国财政部政府和社会资... 可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价项目的可融资性。通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本的识别能力,针对我国财政部政府和社会资本合作中心库中PPP案例样本数据存在非平衡性及高噪声异质性问题,提出Borderline-SMOTE Bagging算法,按照不同领域对其中4组项目进行可融资性评价。结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力。最后结合实证过程遇到的问题,对未来PPP数据化发展,提出政府部门应增强PPP项目数据收集能力并逐步实现数据开放共享,借助大数据技术提升PPP项目管理效率和精准度等建议。 展开更多
关键词 PPP 可融资性 非平衡样本 Borderline-SMOTE BAGGING算法
下载PDF
神经网络识别非平衡样本模式的网络优化方法
2
作者 李光林 吕维雪 《电子学报》 EI CAS CSCD 北大核心 1998年第1期122-125,共4页
本文基于多目标代化的思想,分析了用神经网络实现非平衡样本模式识别与分类时,网络优化过程中基本BP算法收敛速度低的原因,给出了两种相应的改进算法,并利用这两种算法研究了两例非平衡样本模式的分类问题.研究结果表明:改进的算... 本文基于多目标代化的思想,分析了用神经网络实现非平衡样本模式识别与分类时,网络优化过程中基本BP算法收敛速度低的原因,给出了两种相应的改进算法,并利用这两种算法研究了两例非平衡样本模式的分类问题.研究结果表明:改进的算法有效地提高了网络优化的收敛速度。 展开更多
关键词 神经网络 模式识别 多目标优化 非平衡样本模式
下载PDF
一种非平衡样本集的PPP可落地性评价算法研究
3
作者 沈俊鑫 程墙 王晓萍 《软件导刊》 2021年第2期68-72,共5页
“落地难”问题已经成为中国PPP模式可持续、健康发展过程中亟待解决的重大问题。通过深入剖析PPP“落地难”形成机理,从政府和项目两个维度分析PPP可落地性评价特征。针对传统分类器识别非平衡样本集的缺陷,通过人工合成数据,并引入集... “落地难”问题已经成为中国PPP模式可持续、健康发展过程中亟待解决的重大问题。通过深入剖析PPP“落地难”形成机理,从政府和项目两个维度分析PPP可落地性评价特征。针对传统分类器识别非平衡样本集的缺陷,通过人工合成数据,并引入集成学习算法,构建SMOTE-Bagging算法进行模型训练,解决PPP可落地性评价中样本数据非平衡性及高噪声异质性。研究结果表明,针对非平衡样本集,SMOTE-Bagging在准确率、召回率、G-均值、F值等方面表现最优,分别达到90.91%、88.89%、83.15%和0.898;SMOTE-Bagging算法有效识别少数类样本的能力突出,可有效解决PPP可落地性评价中的现实问题。 展开更多
关键词 PPP 可落地性 非平衡样本 机器学习 SMOTE-Bagging
下载PDF
非平衡样本下变电站变压器运行扰动诊断研究 被引量:3
4
作者 周萍 周英 +1 位作者 蹇亚玲 杨博宇 《制造业自动化》 CSCD 北大核心 2021年第12期174-177,共4页
考虑到当前变压器运行扰动诊断方法对未标识数据的分析能力较差,导致变压器运行扰动诊断正判率较低的问题,设计非平衡样本下变电站变压器运行扰动诊断方法。计算综合最优映射目标函数,应用非平衡样本提取变压器运行扰动特征。根据扰动... 考虑到当前变压器运行扰动诊断方法对未标识数据的分析能力较差,导致变压器运行扰动诊断正判率较低的问题,设计非平衡样本下变电站变压器运行扰动诊断方法。计算综合最优映射目标函数,应用非平衡样本提取变压器运行扰动特征。根据扰动特征结合Dempster规则,构建变压器运行扰动多特征证据体系。使用万能逼近定理,搭建运行扰动诊断网络,实现变压器运行扰动诊断。至此,非平衡样本下变电站变压器运行扰动诊断方法设计完成。构建仿真实验环节,实验结果表明:此方法在非平衡样本条件下,可获取正判率较高的单一扰动与复合扰动诊断结果。 展开更多
关键词 变电站变压器 状态评估 数据驱动 特征提取 非平衡样本 扰动诊断
下载PDF
非均衡样本下基于GRA-BSMOTE-RF的瓦斯突出预测
5
作者 乔威豪 安葳鹏 +2 位作者 赵雪菡 吕常周 崔嵩 《煤炭技术》 CAS 2024年第2期121-125,共5页
为解决煤与瓦斯突出预测模型由于样本数据不均衡导致的分类效果不好的问题,提出一种将过采样方法(BSMOTE)和随机森林(RF)模型相耦合的预测模型。首先通过灰色关联分析(GRA)进行特征选择。其次,通过BSMOTE方法增加突出的少数类样本,有效... 为解决煤与瓦斯突出预测模型由于样本数据不均衡导致的分类效果不好的问题,提出一种将过采样方法(BSMOTE)和随机森林(RF)模型相耦合的预测模型。首先通过灰色关联分析(GRA)进行特征选择。其次,通过BSMOTE方法增加突出的少数类样本,有效地区分类别区域边界。最后,构建GRA-BSMOTE-RF煤与瓦斯突出预测模型,以此来减少类别不平衡对模型预测的影响。根据结果表明,提出的模型对于少数类的分类正确率明显提升,证实GRA-BSMOTE-RF模型在不平衡数据下的煤与瓦斯突出预测上具有较好的预测效果。 展开更多
关键词 煤与瓦斯突出 非平衡样本 过采样方法 随机森林 灰色关联度分析
下载PDF
非平衡样本下基于生成对抗网络过抽样技术的公司债券违约风险预测研究 被引量:6
6
作者 姚潇 李可 余乐安 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2022年第10期2617-2634,共18页
本文基于我国在公开市场发行过信用类债券的违约数据,利用了基于Wasserstein距离的生成对抗网络模型和SMOTE抽样技术对违约样本进行过抽样以提高非平衡样本下违约风险模型的预测效果.为检验过抽样技术对分类模型的改进效果,实证分析对... 本文基于我国在公开市场发行过信用类债券的违约数据,利用了基于Wasserstein距离的生成对抗网络模型和SMOTE抽样技术对违约样本进行过抽样以提高非平衡样本下违约风险模型的预测效果.为检验过抽样技术对分类模型的改进效果,实证分析对不同的重抽样样本类别比例下分类模型的预测结果进行比较.研究结果表明过抽样技术能够显著地分类模型的预测精度,而且预测效果随着样本类别比例达到平衡而不断提高.和经典的SMOTE抽样技术相比,基于Wasserstein距离的生成对抗网络过抽样技术不仅可以提高分类模型的AUC指标,同时还能显著地改进F1得分.研究结果表明通过生成对抗网络对少数类样本进行过抽样能够显著地提升机器学习算法对债券违约风险的预测效果,为研究非平衡样本下的债券违约风险预测提供一种新的解决思路. 展开更多
关键词 债券违约风险 生成对抗网络 非平衡样本分类 过抽样技术
原文传递
一种新型欠采样的支持向量机非平衡数据故障诊断研究 被引量:6
7
作者 史岩 李小民 齐晓慧 《计算机测量与控制》 CSCD 北大核心 2012年第5期1203-1204,1235,共3页
支持向量机对于非平衡数据的分类效果不是十分理想;某些新型装备的故障数据较少且难于采集,正常数据则能够较为容易获得足够数量;这就使得支持向量机的诊断效果受到较大影响,如诊断精度降低,漏报、虚警概率的提高;文章借鉴距离最大熵样... 支持向量机对于非平衡数据的分类效果不是十分理想;某些新型装备的故障数据较少且难于采集,正常数据则能够较为容易获得足够数量;这就使得支持向量机的诊断效果受到较大影响,如诊断精度降低,漏报、虚警概率的提高;文章借鉴距离最大熵样本欠采样原理,并引入条件熵的概念,提出了距离条件最大熵欠采样策略,用以改善支持向量机对于非平衡样本的诊断性能,实验表明该方法可行有效。 展开更多
关键词 支持向量机 距离最大熵 条件熵 非平衡样本
下载PDF
一种面向非均衡样本的企业金融风险预测方法 被引量:1
8
作者 仇实 高影繁 +2 位作者 姚长青 刘志辉 李佳星 《中国科技资源导刊》 2021年第5期11-17,共7页
在企业所面临的众多风险中,企业金融风险表现尤为突出,而在大数据环境下,严重的数据不均衡成为横亘在企业金融风险分析面前的一道鸿沟。本文针对企业竞争情报分析中的样本不均衡问题,以金融企业信贷风险预测为切入点,提出一种面向非平... 在企业所面临的众多风险中,企业金融风险表现尤为突出,而在大数据环境下,严重的数据不均衡成为横亘在企业金融风险分析面前的一道鸿沟。本文针对企业竞争情报分析中的样本不均衡问题,以金融企业信贷风险预测为切入点,提出一种面向非平衡样本的企业风险识别方法。该方法采用人工智能分析领域中的特征选择、非均衡样本平衡处理和集成学习等智能分析手段,为大数据环境下企业竞争情报中的企业风险识别问题提供解决思路。 展开更多
关键词 非平衡样本 金融企业 信贷风险 Catboost EasyEnsemble
下载PDF
针对非平衡多分类问题SVM算法的优化研究与应用 被引量:4
9
作者 任冷 周维民 《电脑知识与技术》 2016年第2Z期218-220,共3页
该文针对非平衡数据多分类算法进行研究,传统的分类器在处理非平衡数据多分类时往往直接将二分类问题的算法直接扩展到多分类问题上,忽视数据之间的关系,本文主要基于数据关系对SVM算法改进研究,提出一种基于空间扩展的SVM算法,优化分... 该文针对非平衡数据多分类算法进行研究,传统的分类器在处理非平衡数据多分类时往往直接将二分类问题的算法直接扩展到多分类问题上,忽视数据之间的关系,本文主要基于数据关系对SVM算法改进研究,提出一种基于空间扩展的SVM算法,优化分类器组,提高少类样本数据分类精度。最后通过数据集验证改进后算法的有效性。 展开更多
关键词 SVM 多分类 数据关系 非平衡样本 数据挖掘
下载PDF
有关秩集样本的应用
10
作者 李华 《长春大学学报》 2006年第8期14-19,共6页
主要介绍有关秩集抽样的基本方法,并应用该方法进行了最紧的某处最优势检验,并与利用简单随机样本进行的检验进行比较。
关键词 秩集抽样 平衡秩集样本 平衡秩集样本 完美排列 完美排列 最紧致的某处最优势检验
下载PDF
基于可解释机器学习的信用债违约研究 被引量:2
11
作者 徐舒玥 曹艳华 《科学决策》 CSSCI 2023年第5期190-200,共11页
为解决传统信用风险预测模型的非均衡样本识别不足问题,利用过采样方法和机器学习算法,提升信用债违约预测模型的准确率及稳定性。引入盈利能力、现金流量、营运能力、资本结构、偿债能力5类财务指标和非财务指标,运用SMOTE、Borderline... 为解决传统信用风险预测模型的非均衡样本识别不足问题,利用过采样方法和机器学习算法,提升信用债违约预测模型的准确率及稳定性。引入盈利能力、现金流量、营运能力、资本结构、偿债能力5类财务指标和非财务指标,运用SMOTE、Borderline SMOTE、ADASYN方法解决样本不均衡问题,通过逻辑回归、支持向量机、随机森林、XGBoost进行风险识别。结论:对于非均衡信用债违约样本,1000次有放回bootstrap重复抽样下ADASYN-RF模型的AUC、Recall优于LR、SVM和RF模型;ADASYN-SVM模型违约样本实际Recall较不使用过采样法提升36.86个百分点。引入可解释性机器学习方法,发现带息债务/全部投入资本、地方财政收入/债务存量、资产负债率等是信用债违约的重要影响因素。 展开更多
关键词 信用债违约风险 非平衡样本 可解释性机器学习
下载PDF
基于非平衡数据处理的上市公司ST预警混合模型 被引量:21
12
作者 迟国泰 章彤 张志鹏 《管理评论》 CSSCI 北大核心 2020年第3期3-20,共18页
准确预测上市公司ST状态,对上市公司自身的管理以及投资者的投资决策极为重要。本文通过Lasso最小二乘回归筛选ST判别能力最强的指标组合,并用SMOTE过采样技术对上市公司数据进行平衡化处理,再通过逻辑回归与BP神经网络的混合模型,基于... 准确预测上市公司ST状态,对上市公司自身的管理以及投资者的投资决策极为重要。本文通过Lasso最小二乘回归筛选ST判别能力最强的指标组合,并用SMOTE过采样技术对上市公司数据进行平衡化处理,再通过逻辑回归与BP神经网络的混合模型,基于不同时间窗口的数据对中国上市公司ST状态进行预测。本文创新与特色:一是将BP神经网络和逻辑回归分别得到的公司ST概率与指标数据一同代入BP神经网络模型中预测ST状态,提高了仅用单一判别模型的预测准确率;二是以Lasso最小二乘回归方程的误差最小为目标,寻找对ST状态判别能力最大的一组指标;三是采用SMOTE对上市公司样本进行平衡化处理,解决了非平衡数据下模型判别不准确的问题;四是分别采用了提前2年、3年、4年和5年的数据对公司未来ST状态进行预测,找到了ST预警的最优时间窗口。 展开更多
关键词 非平衡样本 最优指标组合 ST预警 中国上市公司 混合模型
原文传递
基于大数据机器学习的航班价格预测研究
13
作者 王楠 张显 李冬梅 《黑龙江大学自然科学学报》 CAS 2019年第6期656-660,共5页
基于大数据机器学习方法建立了航班价格预测模型,利用大数据技术将海量的航班价格变化曲线构造成机器学习的数据样本。因为实际数据构造的样本为非平衡样本,所以要对传统BP神经网络进行改造以适应航班价格预测模型。选取航班3U8996合肥... 基于大数据机器学习方法建立了航班价格预测模型,利用大数据技术将海量的航班价格变化曲线构造成机器学习的数据样本。因为实际数据构造的样本为非平衡样本,所以要对传统BP神经网络进行改造以适应航班价格预测模型。选取航班3U8996合肥至成都2016年11月16日至2017年1月15日共3900个样本点作为实例进行实验,预测准确率在70%~80%,表明该模型是有效的,并具有一定的推广意义。 展开更多
关键词 机器学习 大数据 神经网络 非平衡样本
下载PDF
基于Adaboost分类算法的优化研究与应用
14
作者 吴琼 周维民 李运田 《工业控制计算机》 2013年第12期90-92,共3页
针对数据采集过程中的数据分布不平衡的问题,对非平衡数据应用数据挖掘分类算法进行分类。传统的分类器在处理非平衡数据时分类结果往往倾向于样本数目较多的类。但Adaboost算法在处理非平衡数据过程中表现出了优势,主要是对Adaboost算... 针对数据采集过程中的数据分布不平衡的问题,对非平衡数据应用数据挖掘分类算法进行分类。传统的分类器在处理非平衡数据时分类结果往往倾向于样本数目较多的类。但Adaboost算法在处理非平衡数据过程中表现出了优势,主要是对Adaboost算法进行改进和应用,采用级联的Adaboost分类器并结合SVM算法构造出分类效率更高的分类器。最后通过具体数据验证改进后算法的有效性。 展开更多
关键词 ADABOOST SVM 分类 非平衡样本 级联 分类效率 数据挖掘
下载PDF
基于数据挖掘的网络众筹模式下用户参与动机研究 被引量:2
15
作者 顾洲一 邱瑾 《征信》 北大核心 2020年第2期18-26,共9页
以用户参与网络众筹的动机为研究目的,基于整合的技术接受模型(UTAUT)和自我决定理论,构建动机测度量表。选取杭州市公众作为调研对象,采用问卷的方式获取用户行为数据,运用非平衡样本处理算法使少数类样本信息得到平衡,并通过机器学习... 以用户参与网络众筹的动机为研究目的,基于整合的技术接受模型(UTAUT)和自我决定理论,构建动机测度量表。选取杭州市公众作为调研对象,采用问卷的方式获取用户行为数据,运用非平衡样本处理算法使少数类样本信息得到平衡,并通过机器学习分类器挖掘影响用户参与的重要动机。研究发现:学历和经验是两个显著控制变量;绩效期望是用户参与网络众筹的首要动机维度,且内外激励因素并驱作用;外在激励中经济收益最为显著,内在驱动因素中同情心起到重要作用;信任动机对网络众筹参与也存在显著的正向调节作用。根据研究结论,探索新的收益模式、构建安全的投资平台,有助于网络众筹行业的绿色可持续发展。 展开更多
关键词 参与动机 UTAUT模型 非平衡样本 随机森林 信任动机
下载PDF
基于CS-RF模型的微额信贷风险预测 被引量:1
16
作者 赵迎 何华 吴超 《时代金融》 2019年第8期174-177,共4页
在金融市场中,互联网征信是规避损失风险的重要参考依据,其中违约用户识别率的准确性对征信来说则更为重要。从这一角度出发,本文提出了改进的随机森林算法(CS-RF)。利用金融公司的实际数据,从随机森林原模型基础上加以改进,在训练样本... 在金融市场中,互联网征信是规避损失风险的重要参考依据,其中违约用户识别率的准确性对征信来说则更为重要。从这一角度出发,本文提出了改进的随机森林算法(CS-RF)。利用金融公司的实际数据,从随机森林原模型基础上加以改进,在训练样本生成决策树后引入代价敏感函数,为多类样本和少类样本的错误分类赋予不同的代价,搜索出更优的决策树集成。通过实证分析,将预测结果与Logistic回归模型,决策树,传统随机森林,BP神经网络进行对比,得出CS-RF模型预测效果最优。 展开更多
关键词 互联网征信 随机森林 非平衡样本 代价敏感函数
下载PDF
混合Boost算法实现的行人检测技术 被引量:3
17
作者 陈超 《计算机应用与软件》 北大核心 2019年第6期184-189,共6页
传统AdaBoost存在一定的局限,比如训练分类器时对训练样本自身所带的噪声过于敏感,产生的分类器泛化能力不强和导致分类器过拟化问题,在训练分类器时只能静态分配分类器权重而不能自适应地对每个训练样本动态调整权重等问题。提出一种基... 传统AdaBoost存在一定的局限,比如训练分类器时对训练样本自身所带的噪声过于敏感,产生的分类器泛化能力不强和导致分类器过拟化问题,在训练分类器时只能静态分配分类器权重而不能自适应地对每个训练样本动态调整权重等问题。提出一种基于SBoost算法和PBoost算法,引入样本权重调节器、非平衡的样本采样、误差纠偏方法来检测潜在的样本。模拟实验表明:改进后的技术有效的提高了分类器的精确度且防止过拟化问题。 展开更多
关键词 SBoost算法 PBoost算法 混合 Boost算法 动态权重调整 平衡样本采样 误差纠偏方法
下载PDF
基于预训练模型的A股停牌预测研究
18
作者 孙夫雄 谢翔 +2 位作者 熊平 梁嘉欣 彭畅 《中央财经大学学报》 CSSCI 北大核心 2022年第11期39-51,共13页
股票停牌是基于提高信息披露程度、抑制股票剧烈波动、消除信息不对称等目的所采取的机制,但个股的停牌行为存在随意性以及其复牌时间不确定性的问题,对投资者的合法权益造成了较大的损害。本文研究从股票波动中挖掘停牌的内在规律,提... 股票停牌是基于提高信息披露程度、抑制股票剧烈波动、消除信息不对称等目的所采取的机制,但个股的停牌行为存在随意性以及其复牌时间不确定性的问题,对投资者的合法权益造成了较大的损害。本文研究从股票波动中挖掘停牌的内在规律,提出了基于预训练模型的股票停牌预测机制。首先预训练模型学习A股上市公司股票停牌的共性特征,然后通过预训练模型参数的迁移学习获得个股停牌的特征,进而构建特定个股的停牌预测模型。实证分析选取2 539家上市公司作为研究对象,对比分析了多个深度学习组合模型,选择以TADM(TCN-Attention-Dense Model)网络结构作为预训练模型具有较好的总体预测效果,在此基础上个股的迁移学习模型表现出更强的样本识别能力且误报率更低。研究发现,虽然诱发个股停牌的因素很多,但仍能从股票波动中预测停牌事件。研究成果为投资者规避停牌风险、减少投资损失或利用个股停牌实现收益最大化等提供借鉴,并可为监管机构对停牌趋势做出前瞻性判断,对宏观调控和政策调整提供参考。 展开更多
关键词 股票停牌 预训练模型 迁移学习 深度学习 非平衡样本
下载PDF
上市公司财务舞弊识别模型设计及其应用研究——基于新兴机器学习算法 被引量:18
19
作者 刘云菁 伍彬 张敏 《数量经济技术经济研究》 CSSCI CSCD 北大核心 2022年第7期152-175,共24页
研究目标:运用新兴机器学习的方法预测公司财务舞弊。研究方法:选取11类财务比率指标与文本信息、公司治理、内部控制等非财务指标作为初始输入变量,采用欠采样方法处理训练集样本非平衡的问题,选择轻量梯度提升机算法对公司是否发生舞... 研究目标:运用新兴机器学习的方法预测公司财务舞弊。研究方法:选取11类财务比率指标与文本信息、公司治理、内部控制等非财务指标作为初始输入变量,采用欠采样方法处理训练集样本非平衡的问题,选择轻量梯度提升机算法对公司是否发生舞弊建立分类模型。研究发现:采用轻量梯度提升机算法极大地提升了预测准确性;相对于逻辑回归、支持向量机、随机森林、梯度提升决策树,轻量梯度提升机算法的预测效果最好;使用全部输入变量比仅仅使用有限传统变量的预测能力更强;预测模型在案例分析、行业分析和股价崩盘检测中也展现出很好的预测效果。研究创新:引入新的机器学习算法识别财务舞弊,采用欠采样的方法对训练集样本进行平衡处理,从多个角度进行应用分析。研究价值:有助于实时高效地识别舞弊并及时进行监管,实现对经济运行更为准确的监测、分析、预测、预警,从而提升资本市场的治理效能,促进经济平稳运行。 展开更多
关键词 财务舞弊 机器学习 非平衡样本 应用分析
原文传递
基金业绩与资金流量:我国基金市场存在“赎回异象”吗? 被引量:156
20
作者 肖峻 石劲 《经济研究》 CSSCI 北大核心 2011年第1期112-125,共14页
近年来,国内学者普遍使用基金短期(季度)回报率作为解释变量,基于平衡面板数据样本对我国基金"业绩—资金流量关系"进行实证检验,得出我国基金市场存在"赎回异象"的结论。本文分别以基金中长期(年度)的原始回报率... 近年来,国内学者普遍使用基金短期(季度)回报率作为解释变量,基于平衡面板数据样本对我国基金"业绩—资金流量关系"进行实证检验,得出我国基金市场存在"赎回异象"的结论。本文分别以基金中长期(年度)的原始回报率、市场模型及Fama-French三因子模型调整后的回报率作为解释变量,运用固定效应的非平衡面板数据回归模型,实证发现:基金滞后年度回报率对资金净流量产生显著的正面影响,投资者总体上"追逐业绩"而非"反向选择","赎回异象"不过是一种假象。与此相关,本文还发现,与海外研究结论明显不同,我国明星基金不能获得超额的资金流入,投资者并不热衷于"追星"。最后,本文运用"委托—代理"理论对实证结果进行了理论分析,并提出了完善我国基金市场业绩激励机制的建议。 展开更多
关键词 基金市场 “赎回异象” “业绩-资金流量关系” 平衡面板数据样本
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部