期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
HSMOTE-AdaBoost:改进混合边界重采样集成分类算法
1
作者 李静 刘姜 +1 位作者 倪枫 李笑语 《智能计算机与应用》 2023年第7期7-14,共8页
处理类不平衡问题时,已有的采样方法存在易受噪声影响和忽略边界样本的问题,尤其是忽略多数类样本的类内差异,位于边界的样本实例非常容易被错分,而这些样本对划分决策边界具有重要作用。将SMOTE过采样和RUS随机欠采样方法结合并进行改... 处理类不平衡问题时,已有的采样方法存在易受噪声影响和忽略边界样本的问题,尤其是忽略多数类样本的类内差异,位于边界的样本实例非常容易被错分,而这些样本对划分决策边界具有重要作用。将SMOTE过采样和RUS随机欠采样方法结合并进行改进,提出混合边界重采样算法(HSMOTE-AdaBoost)。HSMOTE-AdaBoost算法首先对少数类运用SMOTE过采样,提高数据的平衡度;再使用K近邻算法清除噪声和采样方法产生的重叠实例;同时,基于与少数类样本的平均欧氏距离识别并保留边界多数类样本,然后对剩余的数据进行随机欠采样;最后,利用AdaBoost算法的优势,对平衡后的数据集进行多次迭代训练得到最终的分类模型。仿真实验结果表明,与传统的SMOTE-Boost、RUS-Boost、PC-Boost及改进后的算法KSMOTE-AdaBoost相比,该分类模型在不平衡数据集上的所有性能指标F-measure,G-mean,AUC值分别最高提升了22.97%,13.88%和10.03%,具有更优的分类效果。 展开更多
关键词 不平衡 SMOTE过采样 ADABOOST算法 噪声样本 边界样本
下载PDF
基于融合少数类过采样均衡多分类数据的改进极限学习机的变压器故障诊断方法 被引量:8
2
作者 王艳 李伟 +2 位作者 赵洪山 申宗旺 王寅初 《电网技术》 EI CSCD 北大核心 2023年第9期3799-3807,共9页
针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorith... 针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorithm,ISSA)优化极限学习机(extreme learning machine,ELM)的变压器故障诊断方法。首先,利用K-means算法对样本空间进行聚类,基于不平衡度选择聚类中心,利用SMOTE算法向聚类簇合成新样本以增强类内特征的聚合性;其次,针对边界区的样本,利用基于不同策略的Borderline-SMOTE算法向聚类簇合成新样本以增大类间特征的差异性;最后,利用基于Tent混沌映射的麻雀搜索算法(sparrow search algorithm,SSA)对极限学习机(extreme learning machine,ELM)模型中的输入权值和隐藏层偏置进行优化,以提高算法的全局搜索能力和模型的诊断精度。基于变压器油色谱数据的故障诊断实验结果表明:所提基于融合SMOTE均衡多分类数据的ISSA-ELM变压器故障诊断方法能够有效改善诊断模型对多数类的偏向问题,进一步提升模型的诊断精度、收敛速度和稳定性,适用于变压器非均衡数据集的多分类故障诊断。 展开更多
关键词 变压器 故障诊断 非均衡数据 合成少数过采样 麻雀搜索算法 极限学习机
下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:19
3
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 少数样本合成过采样技术 采样倍率 遗传算法
下载PDF
一种基于随机森林的OFDM系统自适应算法
4
作者 王波 刘潇然 +2 位作者 熊俊 辜方林 张晓瀛 《信号处理》 CSCD 北大核心 2024年第6期1007-1018,共12页
针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间... 针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间隔和循环前缀长度取值,本文提出了基于随机森林的OFDM系统自适应算法。随机森林算法基于集成的思想,能够有效处理高维度数据,并且具有高效率、高准确率和强泛化能力等优势,可以在复杂的数据场景下进行有效的分类。通过提取通信过程中信噪比、用户移动速度、最大多普勒频率和均方根时延扩展等信道特征与OFDM系统的子载波间隔和循环前缀长度组成训练样本,利用随机森林算法创建了OFDM系统参数多分类模型。所提模型可以根据输入的信道特征,实现OFDM系统子载波间隔和循环前缀长度的自适应分配。同时,针对训练样本主要集中在少数几个系统参数类别的情况,利用合成少数类过采样技术对较少样本数的类别进行扩充,满足了随机森林算法对训练样本类别平衡化的需求,进一步提高了算法的分类准确率。相比传统的自适应算法,所提算法具有更高的分类准确率和模型泛化能力。分析和仿真结果表明,与子载波间隔和循环前缀长度固定的OFDM系统相比,本文所提出的自适应算法能够准确选择出最优的系统参数,可以有效地减轻信道中符号间干扰和子载波间干扰的影响,从而在整个信噪比范围上提供最大的平均频谱效率。基于随机森林的OFDM系统自适应算法能够动态地分配子载波间隔和循环前缀长度,增强OFDM系统的通信质量和抗干扰能力,实现在不同信道环境下的可靠传输。 展开更多
关键词 正交频分复用 合成少数过采样技术 随机森林 自适应算法
下载PDF
基于少数类过采样的倾向得分匹配插补法 被引量:4
5
作者 杨贵军 杜飞 孙玲莉 《统计与信息论坛》 CSSCI 北大核心 2021年第1期3-12,共10页
无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配... 无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配插补法中,提出基于少数类过采样的倾向得分匹配插补法。利用统计模拟与实证研究,在不同无回答率、插补重数和误差分布情形下,演示新插补法的统计性质和应用效果。统计模拟显示,新插补法具有明显高于倾向得分匹配插补法的精度,统计性质受无回答率、插补重数和误差分布的影响小。实证结果显示,新插补法在实际数据中具有较好的应用性。基于少数类过采样的倾向得分匹配插补法提供了处理无回答问题的新思路,并具有较好的扩展性。 展开更多
关键词 倾向得分匹配插补法 合成少数过采样算法 无回答率 无回答机制
下载PDF
基于SMOTE算法和机器学习模型建立原发性肝癌术后的预后预测模型
6
作者 潘比 余靖华 +2 位作者 黄译贤 伍亚舟 李芳 《陆军军医大学学报》 CAS CSCD 北大核心 2024年第19期2236-2240,共5页
目的基于合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)算法和机器学习模型构建原发性肝癌术后的预后预测模型。方法选取美国国立癌症研究所的监测、流行病学及最终结果(Surveillance,Epidemiology,and End ... 目的基于合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)算法和机器学习模型构建原发性肝癌术后的预后预测模型。方法选取美国国立癌症研究所的监测、流行病学及最终结果(Surveillance,Epidemiology,and End Results,SEER)数据库中4297例患者进行回顾性队列研究,通过独热编码和平均值插补法进行数据预处理,利用SMOTE算法解决数据类别不平衡问题,将临床变量纳入机器学习模型,基于决策树(decision tree,DT)、随机森林(random forest,RF)、梯度提升决策树(gradient boosting decision tree,GBDT)、极限梯度提升算法(eXtreme Gradient Boosting,XGBoost)方法构建预后预测模型(SMOTE+DT/RF/GBDT/XGBoost),通过比较多种模型的性能,筛选出最佳的预测模型。结果组合模型SMOTE+RF展示出最优的预测性能,受试者工作特征曲线(receiver operating characteristic curve,ROC)下的面积(area under the curve,AUC)、准确率和精确率均高于其他模型,分别为0.895、0.811、0.806。结论基于SMOTE+RF算法的原发性肝癌的预后预测模型可有效预测原发性肝癌患者的生存结局。 展开更多
关键词 原发性肝癌 少数过采样技术算法 机器学习 预测模型
下载PDF
考虑不同天气类型样本的光伏功率日内预测模型
7
作者 付雪姣 吕可欣 +4 位作者 吴林林 刘辉 张扬帆 李奕霖 叶林 《分布式能源》 2024年第2期39-47,共9页
太阳能具有清洁、安全、可再生的优点,光伏发电可减轻资源消耗,助力可持续发展,然而光伏功率易受天气影响,针对不同天气类型下光伏功率的预测也是一个研究难点。该研究着手于在不同天气类型下应用人工少数类过采样法(synthetic minority... 太阳能具有清洁、安全、可再生的优点,光伏发电可减轻资源消耗,助力可持续发展,然而光伏功率易受天气影响,针对不同天气类型下光伏功率的预测也是一个研究难点。该研究着手于在不同天气类型下应用人工少数类过采样法(synthetic minority over-sampling technique,SMOTE)和机器学习进行光伏功率预测。首先,通过皮尔逊相关系数法选择出对光伏功率影响最大的气象因子;然后,根据重要程度较大的气象因子计算日照时数,通过给日照时数设定阈值进行划分,将天气分类为晴天、多云或阴天、覆雪,再通过SMOTE技术对各种天气类型下的样本进行扩充;最后,通过多种机器学习算法分别针对不同天气场景以及数据扩充前后构建光伏功率预测模型。通过案例分析可知,所提算法能对不同天气类型进行划分,并为不同天气类型下光伏功率预测存在的样本不平衡问题提供了一种解决方案,提升了不同天气场景下光伏功率的预测精度。 展开更多
关键词 光伏发电 功率预测 机器学习 人工少数过采样法(SMOTE) 天气
下载PDF
基于改进SMOTE算法的网络入侵检测研究
8
作者 王震 佟志勇 +1 位作者 彭美华 杨自恒 《黑龙江大学自然科学学报》 CAS 2024年第4期470-476,共7页
为了解决入侵检测领域中网络异常样本难以捕捉所导致网络数据正负样本不平衡的问题,提出了一种改进的人工少数类过采样法(Synthetic minority oversampling technique,SMOTE)算法,该算法增加了更多具有边界信息的样本,以提升少数样本的... 为了解决入侵检测领域中网络异常样本难以捕捉所导致网络数据正负样本不平衡的问题,提出了一种改进的人工少数类过采样法(Synthetic minority oversampling technique,SMOTE)算法,该算法增加了更多具有边界信息的样本,以提升少数样本的数量。通过对预处理后的少量数据进行过采样,实现数据平衡,将平衡后的数据输入机器模型以提高分类结果。在网络安全实验室-知识发现数据库(Network security laboratory-knowledge discovery in databases,NSL-KDD)数据集中使用了多种机器学习模型进行实验。结果表明,改进的SMOTE算法能够有效解决数据样本不平衡问题,相比于不做处理和传统SMOTE算法,具有较高的准确率、精确率、召回率和F1值(F1-score),此模型具有更快的收敛速度。 展开更多
关键词 入侵检测 不平衡数据集 人工少数过采样 机器学习
下载PDF
基于合成少数类过采样技术算法构建脓毒症合并急性呼吸窘迫综合征的预警模型
9
作者 段红伟 李晓静 +2 位作者 杨兴菊 王飞 杨逢永 《中华危重病急救医学》 CAS CSCD 北大核心 2024年第4期358-363,共6页
目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566... 目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566例脓毒症患者。收集患者的一般资料、基础疾病、感染部位、起始病因、病情严重程度评分、入院时血液指标和动脉血气分析指标、治疗措施、并发症及预后指标。根据患者住院期间是否发生ARDS分组,观察对比两组患者的临床资料;采用单因素和二元多因素Logistic回归分析筛选脓毒症患者住院期间发生ARDS的独立危险因素,并建立回归方程,构建预警模型,同时基于SMOTE算法改进数据集,构建改进数据集的预警模型;绘制受试者工作特征曲线(ROC曲线),对比验证模型的预测效能。结果566例脓毒症患者均纳入最终分析,其中163例在住院期间发生ARDS,403例未发生ARDS。单因素分析显示,两组患者年龄、体质量指数(BMI)、恶性肿瘤、输血史、胰腺及胰周感染、胃肠道感染、起始病因为肺部感染、急性生理学与慢性健康状况评分Ⅱ(APACHEⅡ)、序贯器官衰竭评分(SOFA)、白蛋白(Alb)、血尿素氮(BUN)、机械通气治疗、脓毒性休克比例及重症监护病房(ICU)住院时间差异均有统计学意义。二元多因素Logistic回归分析显示,年龄〔优势比(OR)=3.449,95%可信区间(95%CI)为2.197~5.414,P=0.000〕、起始病因为肺部感染(OR=2.309,95%CI为1.427~3.737,P=0.001)、胰腺及胰周感染(OR=1.937,95%CI为1.236~3.035,P=0.004)、脓毒性休克(OR=3.381,95%CI为1.890~6.047,P=0.000)、SOFA评分(OR=9.311,95%CI为5.831~14.867,P=0.000)为脓毒症患者住院期间发生ARDS的独立危险因素。基于上述危险因素建立预警模型:P1=-4.558+1.238×年龄+0.837×起始病因为肺部感染+0.661×胰腺及胰周感染+1.218×脓毒性休克+2.231×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的ROC曲线下面积(AUC)为0.882(95%CI为0.851~0.914),敏感度为79.8%,特异度为83.4%。基于SMOTE算法改进数据集,再次构建预警模型:P_(2)=-3.279+1.288×年龄+0.763×起始病因为肺部感染+0.635×胰腺及胰周感染+1.068×脓毒性休克+2.201×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的AUC为0.890(95%CI为0.867~0.913),敏感度为85.3%,特异度为79.1%,进一步验证了以上述独立危险因素构建的预警模型具有较高的预测效能。结论脓毒症患者住院期间发生ARDS的危险因素包括年龄、起始病因为肺部感染、胰腺及胰周感染、脓毒性休克和SOFA评分,临床上可依据基于上述危险因素建立的预警模型对脓毒症患者发生ARDS的概率进行评估,进而提前干预,改善预后。 展开更多
关键词 脓毒症 急性呼吸窘迫综合征 危险因素 回归方程 合成少数过采样技术算法
原文传递
改进的聚类过采样算法在信用评价中的应用
10
作者 王超然 邵新慧 《信息与电脑》 2021年第1期45-49,共5页
采用传统过采样算法会导致忽略边界样本重要信息、新样本高相似度等问题,本文针对这一问题提出了一种新型的DB-BMCSMOTE方法。首先,该算法用DBSCAN聚类法对少数类聚类,识别并去除噪音后对标签中存在的边界少数样本依概率进行标记。其次... 采用传统过采样算法会导致忽略边界样本重要信息、新样本高相似度等问题,本文针对这一问题提出了一种新型的DB-BMCSMOTE方法。首先,该算法用DBSCAN聚类法对少数类聚类,识别并去除噪音后对标签中存在的边界少数样本依概率进行标记。其次,对聚类生成的每一样本簇生成密度函数,计算其密度及采样权重,将各簇中依概率标记的少数样本与较远样本间的中点进行过采样,以提升模型的准确率。实验结果表明,该算法相比其他算法平均提升3.8%,最大为5.92%,并有效应用于信用评价。 展开更多
关键词 过采样 边界少数样本 DBSCAN SMOTE 别不平衡
下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:8
11
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数过采样技术(SMOTE) 构造性覆盖算法(CCA)
下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
12
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数过采样技术(SMOTE)算法 条件生成对抗网络 XGBoost模型 问题
下载PDF
边界与密度适应的SMOTE算法研究 被引量:5
13
作者 梅大成 陈江 郑涛 《计算机应用研究》 CSCD 北大核心 2022年第5期1478-1482,共5页
针对合成少数类过采样技术等基于近邻值的过采样算法在处理数据类不平衡时,不能根据少数类样本分布情况及时调整模型参数,导致过采样后的数据集引入噪声,并且在原始分布区域上无差别地合成少数类实例造成过拟合等问题,提出了一种特征边... 针对合成少数类过采样技术等基于近邻值的过采样算法在处理数据类不平衡时,不能根据少数类样本分布情况及时调整模型参数,导致过采样后的数据集引入噪声,并且在原始分布区域上无差别地合成少数类实例造成过拟合等问题,提出了一种特征边界和密度适应的SMOTE算法(SMOTE algorithm for feature boundary and density adaptation,BDA-SMOTE)。该算法为每一个少数类样本规划安全区域,增加少数类的分布,同时基于数据的分布密度动态地调整模型参数,确保生成的数据具有明显的特征边界,防止过拟合。在公开数据集KEEL上与常用的SMOTE算法进行实验对比,结果BDA-SMOTE的性能优于其他基于近邻SMOTE算法。表明该算法较好地扩展了原数据集的分布,同时合成的噪声样本更少。 展开更多
关键词 合成少数过采样 不平衡 特征边界 密度适应
下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
14
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数过采样(Smote)算法 岩爆指标 托梅克联系(Tomek Link)
下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:32
15
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分 合成少数过采样技术 K近邻 过采样 ADABOOST算法
下载PDF
基于BSMOTE-SVM算法的溢流风险评价
16
作者 张禾 池紫欣 《控制工程》 CSCD 北大核心 2023年第12期2173-2178,共6页
现今钻井作业中各平台仍然依靠人工坐岗进行溢流预警,溢流风险判断具有主观性导致准确率十分有限。针对目前溢流风险识别能力弱和准确率低的问题,首先,采用了边界样本过采样方法避免了由于溢流发生频率极低导致可获取的样本数量不足的缺... 现今钻井作业中各平台仍然依靠人工坐岗进行溢流预警,溢流风险判断具有主观性导致准确率十分有限。针对目前溢流风险识别能力弱和准确率低的问题,首先,采用了边界样本过采样方法避免了由于溢流发生频率极低导致可获取的样本数量不足的缺陷;其次,引入支持向量机对改善后的样本构造分类器,建立了溢流风险评价模型,并采用已经完钻的油井数据作为测试集进行模型验证。实验结果表明,所提方法将溢流识别准确率提高到了90%,相对于原始不均衡样本训练的分类器准确率,提高了36.67%。同时,此研究成果提高了钻井作业中的溢流识别能力,为安全钻井提供了有力支撑。 展开更多
关键词 不均衡数据集 支持向量机 边界合成少数过采样技术 溢流风险评价
下载PDF
整合DBSCAN和改进SMOTE的过采样算法 被引量:15
17
作者 王亮 冶继民 《计算机工程与应用》 CSCD 北大核心 2020年第18期111-118,共8页
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOT... 针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。 展开更多
关键词 过采样 内不平衡 少数 多样性 SMOTE算法 DBSCAN算法
下载PDF
基于鲸鱼优化和深度学习的不平衡大数据分类算法 被引量:9
18
作者 孙二华 胡云冰 《西南师范大学学报(自然科学版)》 CAS 2021年第5期127-133,共7页
针对当前不平衡数据分类算法中存在的分类精度低和容易陷入局部最优状态的问题,提出一种基于鲸鱼优化和深度学习的不平衡大数据分类算法.该算法由特征选择、预处理和分类3个阶段组成:①为了提高分类精度,使用鲸鱼优化算法(whale optimiz... 针对当前不平衡数据分类算法中存在的分类精度低和容易陷入局部最优状态的问题,提出一种基于鲸鱼优化和深度学习的不平衡大数据分类算法.该算法由特征选择、预处理和分类3个阶段组成:①为了提高分类精度,使用鲸鱼优化算法(whale optimization algorithm,WOA)在不平衡数据中寻找最优特征子集,消除不相关和多余的特征;②采用局部敏感哈希的合成少数类过采样技术(locality sensitive hashing synthetic minority oversampling technique,LSH-SMOT)对数据集进行预处理,解决类不平衡问题;③使用基于WOA算法优化的双向递归神经网络(bidirectional recurrent neural networks,BRNN)对预处理后的数据集进行分类.实验结果表明:本文算法能够有效解决不平衡数据集的分类问题,相比于其他算法,本文算法在分类精度和局部最优避免率方面具有明显优势. 展开更多
关键词 不平衡大数据分 鲸鱼优化算法 深度学习 合成少数过采样技术
下载PDF
基于KNN和自适应的过采样方法
19
作者 张怀啸 陈卓 周必良 《信息与电脑》 2023年第3期93-95,共3页
针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN... 针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN and Adaptive,KAO)。首先,利用KNN去除噪声样本;其次,根据少数类样本K近邻样本中多数类样本数,自适应给少数类样本分配过采样权重;最后,利用新的插值方式生成新样本平衡数据集。在KEEL公开的数据集上进行实验,将提出的KAO算法与SMOTE及其改进算法进行对比,在F1值和g-mean上都有所提升。 展开更多
关键词 不平衡数据分 少数合成过采样技术(SMOTE) K最邻近算法(KNN) 自适应 过采样
下载PDF
心血管事件患者术后30 d死亡风险决策树模型的构建与评估——基于少数类样本合成过采样技术算法
20
作者 陈永庄 莫小乔 谢天 《中华危重症医学杂志(电子版)》 CAS CSCD 2023年第5期390-398,共9页
目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺... 目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺血性心脏病史和/或充血性心力衰竭史患者),提取患者基本临床信息以及相关基础病和手术相关评分信息。采用SMOTE算法对原始数据集进行重建,并应用全子集回归筛选预测因子,将数据集按7∶3分为训练组和验证组,其中训练组用于建立决策树风险预测模型,验证组用于内部验证。结果:患者术后30 d病死率为3.0%(93/3086),术后24 h ICU入住率为4.5%(140/3086)。全子集回归分析显示年龄>75岁[比值比(OR)=1.033,95%置信区间(CI)(1.024,1.042),P<0.001]、贫血[OR=1.368,95%CI(1.211,1.546),P<0.001]、慢性肾脏病分期>2期[OR=1.381,95%CI(1.277,1.494),P<0.001]、术前输血[OR=4.496,95%CI(3.268,6.185),P<0.001]、急诊手术[OR=3.344,95%CI(2.752,4.064),P<0.001]、红细胞分布宽度>15.7%[OR=2.097,95%CI(1.658,2.652),P<0.001]及美国麻醉医师协会分级>2级[OR=3.362,95%CI(2.734,4.135),P<0.001]是心血管事件患者术后30 d死亡的危险因素。应用以上7个预测因子构建决策树模型。结果显示训练组受试者工作特征曲线下面积为0.853[95%CI(0.837,0.868),P<0.001],敏感度、特异度分别为0.765、0.756;验证组受试者工作特征曲线下面积为0.858[95%CI(0.834,0.882),P<0.001],敏感度、特异度分别为0.938、0.612,总体判别能力良好。结论:心血管事件患者术后30 d死亡事件发生率低,为不平衡数据分类问题,本研究基于处理不平衡数据常用的SMOTE算法,避免了小概率事件建模过程中的过拟合问题。同时决策树模型具有直观、便捷、个性化的特点,为医务工作者提供了方便的临床预测工具。 展开更多
关键词 少数样本合成过采样技术算法 术后死亡 全子集回归 预测模型 决策树
原文传递
上一页 1 2 3 下一页 到第
使用帮助 返回顶部