期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
基于合成少数类过采样技术算法构建脓毒症合并急性呼吸窘迫综合征的预警模型
1
作者 段红伟 李晓静 +2 位作者 杨兴菊 王飞 杨逢永 《中华危重病急救医学》 CAS CSCD 北大核心 2024年第4期358-363,共6页
目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566... 目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566例脓毒症患者。收集患者的一般资料、基础疾病、感染部位、起始病因、病情严重程度评分、入院时血液指标和动脉血气分析指标、治疗措施、并发症及预后指标。根据患者住院期间是否发生ARDS分组,观察对比两组患者的临床资料;采用单因素和二元多因素Logistic回归分析筛选脓毒症患者住院期间发生ARDS的独立危险因素,并建立回归方程,构建预警模型,同时基于SMOTE算法改进数据集,构建改进数据集的预警模型;绘制受试者工作特征曲线(ROC曲线),对比验证模型的预测效能。结果566例脓毒症患者均纳入最终分析,其中163例在住院期间发生ARDS,403例未发生ARDS。单因素分析显示,两组患者年龄、体质量指数(BMI)、恶性肿瘤、输血史、胰腺及胰周感染、胃肠道感染、起始病因为肺部感染、急性生理学与慢性健康状况评分Ⅱ(APACHEⅡ)、序贯器官衰竭评分(SOFA)、白蛋白(Alb)、血尿素氮(BUN)、机械通气治疗、脓毒性休克比例及重症监护病房(ICU)住院时间差异均有统计学意义。二元多因素Logistic回归分析显示,年龄〔优势比(OR)=3.449,95%可信区间(95%CI)为2.197~5.414,P=0.000〕、起始病因为肺部感染(OR=2.309,95%CI为1.427~3.737,P=0.001)、胰腺及胰周感染(OR=1.937,95%CI为1.236~3.035,P=0.004)、脓毒性休克(OR=3.381,95%CI为1.890~6.047,P=0.000)、SOFA评分(OR=9.311,95%CI为5.831~14.867,P=0.000)为脓毒症患者住院期间发生ARDS的独立危险因素。基于上述危险因素建立预警模型:P1=-4.558+1.238×年龄+0.837×起始病因为肺部感染+0.661×胰腺及胰周感染+1.218×脓毒性休克+2.231×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的ROC曲线下面积(AUC)为0.882(95%CI为0.851~0.914),敏感度为79.8%,特异度为83.4%。基于SMOTE算法改进数据集,再次构建预警模型:P_(2)=-3.279+1.288×年龄+0.763×起始病因为肺部感染+0.635×胰腺及胰周感染+1.068×脓毒性休克+2.201×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的AUC为0.890(95%CI为0.867~0.913),敏感度为85.3%,特异度为79.1%,进一步验证了以上述独立危险因素构建的预警模型具有较高的预测效能。结论脓毒症患者住院期间发生ARDS的危险因素包括年龄、起始病因为肺部感染、胰腺及胰周感染、脓毒性休克和SOFA评分,临床上可依据基于上述危险因素建立的预警模型对脓毒症患者发生ARDS的概率进行评估,进而提前干预,改善预后。 展开更多
关键词 脓毒症 急性呼吸窘迫综合征 危险因素 回归方程 合成少数过采样技术算法
原文传递
基于改进合成少数类过采样技术的非概率可靠性指标解
2
作者 张梦 陈旭勇 +1 位作者 彭元林 李书雅 《武汉工程大学学报》 CAS 2024年第2期231-236,共6页
当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠... 当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠性指标的几何意义,将样本分类策略、超球限制策略与标准SMOTE算法相结合,提出了改进SMOTE算法来进一步提升算法在极限状态曲面附近的采样效率;然后结合改进SMOTE算法在标准化空间中高精度的拟合局部极限状态曲面,进而搜索得到非概率可靠性指标;最后给出了基于改进SMOTE算法的非概率可靠性指标解的主要流程。数值算例表明,当极限状态曲面呈现局部闭合、多区域的特点时,改进后的SMOTE算法可以高效地获取位于极限状态曲面附近的样本点,进而高精度地拟合极限状态曲面。将本文方法的计算结果与解析解对比,相对误差远远小于工程中的最大误差限值5%,说明改进SMOTE算法能够较好地处理高度非线性功能函数,验证了所提算法的有效性和实用性。 展开更多
关键词 非概率可靠性指标 合成少数过采样技术 样本策略 超球限制策略 极限状态曲面
下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:17
3
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 少数样本合成过采样技术 采样倍率 遗传算法
下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法
4
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本分布不平衡 改进合成少数过采样技术 深度残差网络
下载PDF
SMOTE类算法研究综述
5
作者 王晓霞 李雷孝 林浩 《计算机科学与探索》 CSCD 北大核心 2024年第5期1135-1159,共25页
合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细... 合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细阐述了SMOTE方法的基本原理,然后主要从数据级、算法级两个层面系统性地梳理分析SMOTE类算法,并介绍数据级和算法级混合改进的新思路。数据级改进是在预处理时通过不同操作删除或添加数据来平衡数据分布;算法级改进不会改变数据分布,主要通过修改或创建算法来加强对少数类样本的关注度。二者相比,数据级方法应用受限更少,算法级改进的算法鲁棒性普遍更高。为了更全面地提供SMOTE类算法的基础研究材料,最后列出常用数据集、评价指标,给出未来可能尝试进行的研究思路,以更好地应对不平衡数据问题。 展开更多
关键词 不平衡数据 合成少数过采样技术(smote) 过采样 监督学习
下载PDF
基于改进SMOTE不均衡样本处理和IHPO-DBN的变压器故障诊断方法研究
6
作者 周萱 吴伟丽 《电力系统保护与控制》 EI CSCD 北大核心 2024年第11期21-30,共10页
针对由于变压器故障样本不均衡和故障模型陷入局部最优而导致的分类准确率低的问题,提出了基于改进的合成少数类过采样技术和优化深度置信网络(deep belief network, DBN)的变压器故障诊断方法。首先采用聚类融合的K-means算法,通过分... 针对由于变压器故障样本不均衡和故障模型陷入局部最优而导致的分类准确率低的问题,提出了基于改进的合成少数类过采样技术和优化深度置信网络(deep belief network, DBN)的变压器故障诊断方法。首先采用聚类融合的K-means算法,通过分簇和匹配的方式筛选出不稳定的少数类样本用以改进中心点合成少数类过采样技术(center point synthetic minority oversampling technique, CP-SMOTE)算法,并对少数类样本进行扩增,解决了变压器故障数据分布不均衡的问题。其次,通过加入随机逆向学习和自适应惯性权重技术对猎食者优化算法进行改进,并用改进后的算法对DBN的内部参数进行优化调整,提高了模型精度。最后,将不同数据预处理情况下以及不同数据规模下的变压器故障模型进行仿真对比。结果表明,经过数据预处理和模型优化后的变压器故障识别准确率能够提高到98%,有效地解决了故障数据不平衡导致的分类精度低的问题。 展开更多
关键词 变压器故障诊断 不均衡样本 K-MEANS聚 改进合成少数过采样 改进猎食者优化
下载PDF
面向非平衡多分类问题的二次合成QSMOTE方法 被引量:2
7
作者 韩明鸣 郭虎升 王文剑 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期1-13,共13页
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善... 近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升. 展开更多
关键词 非平衡问题 过泛化 重叠 合成少数采样技术(smote)
下载PDF
基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用
8
作者 何亮 徐海燕 陈璐 《数据采集与处理》 CSCD 北大核心 2023年第6期1482-1494,共13页
为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使... 为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使用无参数的自然近邻设定采样样本选取的逻辑规则,规避了r近邻划分样本时产生的不稳定性;其次基于自然近邻稳定结构规定安全范围设定的逻辑规则,避免合成样本成为噪声样本;然后使用双聚类挖掘局部规则,以合成样本继承局部规则的方式改进SMOTE合成公式;最后,在Prosper小额贷款平台的非均衡信贷数据集上将NaN?Bicluster SMOTE与若干采样方法和机器学习模型进行对比分析,并进一步使用统计检验方法验证其性能的优越性。 展开更多
关键词 小额贷款 信用风险 合成少数过采样技术 自然近邻 双聚
下载PDF
不均衡小样本下的设备状态与寿命预测
9
作者 陈扬 刘勤明 郑伊寒 《计算机集成制造系统》 EI CSCD 北大核心 2024年第1期217-226,共10页
针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系... 针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系数,选择性地对权值大于裁剪系数的样本进行处理从而提高计算效率。其次,通过类k近邻法则过滤出错分类样本权值,随后引入合成少数类过采样技术提升该种类样本权值个数,有效规避迭代过程中不均衡数据集可能引起的过拟合问题。最后,通过对设备运行状态进行准确分类并拟合出与时间相关的设备寿命曲线预测设备寿命。算例结果表明,所提模型能够有效分析出不均衡数据下的设备健康状况,同时也可以对剩余寿命进行有效预测。 展开更多
关键词 样本 不均衡数据 ADABOOST算法 合成少数过采样技术 剩余寿命预测
下载PDF
心血管事件患者术后30 d死亡风险决策树模型的构建与评估——基于少数类样本合成过采样技术算法
10
作者 陈永庄 莫小乔 谢天 《中华危重症医学杂志(电子版)》 CAS CSCD 2023年第5期390-398,共9页
目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺... 目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺血性心脏病史和/或充血性心力衰竭史患者),提取患者基本临床信息以及相关基础病和手术相关评分信息。采用SMOTE算法对原始数据集进行重建,并应用全子集回归筛选预测因子,将数据集按7∶3分为训练组和验证组,其中训练组用于建立决策树风险预测模型,验证组用于内部验证。结果:患者术后30 d病死率为3.0%(93/3086),术后24 h ICU入住率为4.5%(140/3086)。全子集回归分析显示年龄>75岁[比值比(OR)=1.033,95%置信区间(CI)(1.024,1.042),P<0.001]、贫血[OR=1.368,95%CI(1.211,1.546),P<0.001]、慢性肾脏病分期>2期[OR=1.381,95%CI(1.277,1.494),P<0.001]、术前输血[OR=4.496,95%CI(3.268,6.185),P<0.001]、急诊手术[OR=3.344,95%CI(2.752,4.064),P<0.001]、红细胞分布宽度>15.7%[OR=2.097,95%CI(1.658,2.652),P<0.001]及美国麻醉医师协会分级>2级[OR=3.362,95%CI(2.734,4.135),P<0.001]是心血管事件患者术后30 d死亡的危险因素。应用以上7个预测因子构建决策树模型。结果显示训练组受试者工作特征曲线下面积为0.853[95%CI(0.837,0.868),P<0.001],敏感度、特异度分别为0.765、0.756;验证组受试者工作特征曲线下面积为0.858[95%CI(0.834,0.882),P<0.001],敏感度、特异度分别为0.938、0.612,总体判别能力良好。结论:心血管事件患者术后30 d死亡事件发生率低,为不平衡数据分类问题,本研究基于处理不平衡数据常用的SMOTE算法,避免了小概率事件建模过程中的过拟合问题。同时决策树模型具有直观、便捷、个性化的特点,为医务工作者提供了方便的临床预测工具。 展开更多
关键词 少数样本合成过采样技术算法 术后死亡 全子集回归 预测模型 决策树
原文传递
基于SMOTE-UVE-SVM的小麦种子纯度高光谱图像检测
11
作者 朱潘雨 黄敏 赵鑫 《激光技术》 CAS CSCD 北大核心 2024年第2期281-287,共7页
为了解决基于高光谱成像技术的小麦种子纯度检测过程中样本不均衡及波段信息冗余导致纯度检测模型性能下降的问题,提出了一种融合合成少数类过采样技术(SMOTE)、非信息变量剔除(UVE)和支持向量机(SVM)的种子纯度高光谱检测模型。该模型... 为了解决基于高光谱成像技术的小麦种子纯度检测过程中样本不均衡及波段信息冗余导致纯度检测模型性能下降的问题,提出了一种融合合成少数类过采样技术(SMOTE)、非信息变量剔除(UVE)和支持向量机(SVM)的种子纯度高光谱检测模型。该模型利用SMOTE算法对小麦种子少数类(杂质)样本进行扩充,改善样本的不均衡性;同时利用UVE对高维的高光谱特征进行选择,并构建SVM模型作为分类器,以进一步提高分类的性能。结果表明,5类小麦种子的平均准确率、精确率和负样本检出率分别达到95.98%、94.94%和89.32%,较传统方法分别提高了3.89%、7.18%和12.42%。所提出的方法在基于高光谱成像技术的小麦种子纯度检测中具有较好的应用前景。 展开更多
关键词 光谱学 高光谱成像技术 合成少数过采样技术 非信息变量剔除 种子纯度
下载PDF
面向不平衡数据集的浓香型白酒基酒等级分类研究
12
作者 王继华 李兆飞 +2 位作者 杨壮 赵娜 张贵宇 《中国酿造》 CAS 北大核心 2024年第1期184-189,共6页
为解决基于气相色谱-质谱联用(GC-MS)仪采集的浓香型白酒基酒等级分类中样本不均衡导致分类模型性能下降的问题,提出了一种面向不平衡数据集的浓香型白酒基酒分类研究。该方法首先采用合成少数类过采样技术(SMOTE)对浓香型基酒样品中少... 为解决基于气相色谱-质谱联用(GC-MS)仪采集的浓香型白酒基酒等级分类中样本不均衡导致分类模型性能下降的问题,提出了一种面向不平衡数据集的浓香型白酒基酒分类研究。该方法首先采用合成少数类过采样技术(SMOTE)对浓香型基酒样品中少数类样本进行扩充,改善样本的不均衡性;然后结合稀疏主成分分析(SPCA)对GC-MS图谱数据进行降维;最后使用深度森林(DF)分类器建立浓香型白酒基酒分类识别模型。结果表明,使用SMOTE算法对基酒数据集进行平衡之后能够有效提高模型分类准确率,所建立的浓香型基酒分类模型正确率达到96.61%,该分类模型的建立对基酒等级分类能起到一定的指导和借鉴作用。 展开更多
关键词 气相色谱-质谱联用 浓香型白酒基酒 合成少数过采样技术 稀疏主成分分析 基酒分
下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
13
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 支持度 轮盘赌选择 合成少数过采样技术(smote)
下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
14
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数样本合成过采样技术 支持向量机
下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:8
15
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数过采样技术(smote) 构造性覆盖算法(CCA)
下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:5
16
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数过采样技术(smote)算法 条件生成对抗网络 XGBoost模型 问题
下载PDF
基于BSMOTE和逆转欠抽样的不均衡数据分类算法 被引量:4
17
作者 陈睿 张亮 +1 位作者 杨静 胡荣贵 《计算机应用研究》 CSCD 北大核心 2014年第11期3299-3303,共5页
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类... 针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。 展开更多
关键词 不均衡数据集 边界少数样本合成过抽样技术 逆转欠抽样技术 多分器集成
下载PDF
利用采样安全系数的多类不平衡过采样算法 被引量:3
18
作者 董明刚 刘明 敬超 《计算机科学与探索》 CSCD 北大核心 2020年第10期1776-1786,共11页
传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那... 传统的过采样算法在处理多类不平衡问题时容易出现过度泛化和类别重叠,从而降低了分类性能。为了提高多类不平衡学习性能,提出了一种利用采样安全系数的多类不平衡过采样(SSCMIO)算法。首先为了防止过度泛化,采用近邻采样安全系数为那些会造成过度泛化的邻域分配一个较小的权重。然后考虑到样本点的全局特性,采用反向近邻采样安全系数防止新合成的样本点侵入到其他类别区域,减轻类别之间的重叠问题。最后以C4.5决策树作为基分类器,将SSCMIO算法与7种典型的过采样算法进行了对比实验。在16个公开的真实数据集上,SSCMIO算法在准确率、召回率、F-measure、MG、MAUC这5个指标上均能取得11个以上的最优值,在5个指标上最大提升分别是0.4818、0.3053、0.3420、0.2664、0.1307。实验结果表明SSCMIO算法相比其他7种算法可以取得更好的分类性能。 展开更多
关键词 采样安全系数 过采样 合成少数技术 不平衡问题
下载PDF
基于少数类样本合成过抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建
19
作者 庄翠侠 杨俊平 +4 位作者 王妍 刘思园 姜莉晴 季学磊 祝腊香 《临床军医杂志》 CAS 2023年第9期952-955,959,共5页
目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。... 目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。根据周围神经病变发生情况将患者分为周围神经病变组(n=70)和无周围神经病变组(n=135)。收集并记录患者的年龄、性别、病程、居住地、婚姻状态、体质量指数、文化程度、饮酒史、吸烟史、糖化血红蛋白、高血压、空腹血糖及合并糖尿病视网膜病变(DR)等资料。采用Logistic回归分析筛选2型糖尿病合并周围神经病变的危险因素,应用SMOTE算法构建2型糖尿病合并周围神经病变的预警模型。采用受试者工作特征(ROC)曲线对预警模型的预测效能进行分析。结果Logistic回归分析结果显示,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素(P<0.05)。原始预警模Logit(P_(1))H-L检验结果(决定系数R^(2)=0.352,P=0.328),提示Logistic回归模型的拟合度良好。基于SMOTE算法的预警模型Logit(P_(2))H-L检验结果(决定系数R^(2)=0.371,P=0.635),提示基于SMOTE算法的预警模型拟合度良好。原始预警模型的ROC曲线下面积为0.809,基于SMOTE算法的预警模型的ROC曲线下面积为0.927。结论年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,基于SMOTE算法的预警模型能够对2型糖尿病合并周围神经病变进行准确预测,可帮助临床制定周围神经病变的相关防治对策。 展开更多
关键词 2型糖尿病 周围神经病变 少数样本合成过抽样技术算法 预警模型
下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
20
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数过采样(smote)算法 岩爆指标 托梅克联系(Tomek Link)
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部