期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于改进合成少数类过采样技术的非概率可靠性指标解
1
作者 张梦 陈旭勇 +1 位作者 彭元林 李书雅 《武汉工程大学学报》 CAS 2024年第2期231-236,共6页
当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠... 当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠性指标的几何意义,将样本分类策略、超球限制策略与标准SMOTE算法相结合,提出了改进SMOTE算法来进一步提升算法在极限状态曲面附近的采样效率;然后结合改进SMOTE算法在标准化空间中高精度的拟合局部极限状态曲面,进而搜索得到非概率可靠性指标;最后给出了基于改进SMOTE算法的非概率可靠性指标解的主要流程。数值算例表明,当极限状态曲面呈现局部闭合、多区域的特点时,改进后的SMOTE算法可以高效地获取位于极限状态曲面附近的样本点,进而高精度地拟合极限状态曲面。将本文方法的计算结果与解析解对比,相对误差远远小于工程中的最大误差限值5%,说明改进SMOTE算法能够较好地处理高度非线性功能函数,验证了所提算法的有效性和实用性。 展开更多
关键词 非概率可靠性指标 合成少数过采样技术 样本分类策略 超球限制策略 极限状态曲面
下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:19
2
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 分类 少数样本合成过采样技术 采样倍率 遗传算法
下载PDF
基于新型采样技术的非平衡数据分类方法
3
作者 刘子桐 刘振远 +1 位作者 庞娜 马铭 《北华大学学报(自然科学版)》 CAS 2024年第5期694-700,共7页
在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据... 在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据分布和聚类加权的改进SMOTE随机森林分类算法(Random Forest Using SMOTE Based on Data Distribution and Cluster Weighting,DCSMOTE-RF)。该算法通过获取样本分布信息,将少数类样本划分到不同簇群,根据簇群信息量为每个区域分配不同合成份额;少数类样本结合自身权重,生成相应规模的目标样本;通过基于随机森林学习评价训练数据。10组非平衡数据集仿真试验结果表明,DCSMOTE-RF算法对非平衡数据具有较好的预测效果。 展开更多
关键词 非平衡分类 合成少数过采样技术 随机森林 聚类
下载PDF
不均衡小样本下的设备状态与寿命预测 被引量:1
4
作者 陈扬 刘勤明 郑伊寒 《计算机集成制造系统》 EI CSCD 北大核心 2024年第1期217-226,共10页
针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系... 针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系数,选择性地对权值大于裁剪系数的样本进行处理从而提高计算效率。其次,通过类k近邻法则过滤出错分类样本权值,随后引入合成少数类过采样技术提升该种类样本权值个数,有效规避迭代过程中不均衡数据集可能引起的过拟合问题。最后,通过对设备运行状态进行准确分类并拟合出与时间相关的设备寿命曲线预测设备寿命。算例结果表明,所提模型能够有效分析出不均衡数据下的设备健康状况,同时也可以对剩余寿命进行有效预测。 展开更多
关键词 样本 不均衡数据 ADABOOST算法 合成少数过采样技术 剩余寿命预测
下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法
5
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本类分布不平衡 改进合成少数过采样技术 深度残差网络
下载PDF
小样本下基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断
6
作者 葛平淑 王朝阳 +3 位作者 王阳 张涛 薛红涛 夏晨迪 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第8期1-9,共9页
轮毂电机复杂多变的运行环境可能导致轴承故障而危及电动车辆行驶安全,为解决传统故障诊断方法在小样本条件下识别精度低的问题,提出一种基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断方法。首先,通过合成少数过采样技术(SMOTE)扩展训练数据... 轮毂电机复杂多变的运行环境可能导致轴承故障而危及电动车辆行驶安全,为解决传统故障诊断方法在小样本条件下识别精度低的问题,提出一种基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断方法。首先,通过合成少数过采样技术(SMOTE)扩展训练数据集,生成与真实样本分布相似的故障样本,并使用主成分分析(PCA)优化其时域和频域的特征。然后,通过引入非线性收敛因子和Levy飞行策略改进传统的灰狼优化算法(GWO),使用改进的灰狼优化算法(IGWO)优化随机森林(RF)模型的参数。最后,基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断模型实现故障状态的识别,并在轮毂电机试验台架上进行了实验验证。结果表明,所提出的轮毂电机轴承故障诊断方法在7种转速工况下平均准确率均超过96%,具有高精度和稳定性。与遗传算法(GA)、粒子群优化算法(PSO)、GWO优化RF相比,提出的IGWO-RF模型在3种小样本训练集下的诊断准确率均超过90%,且准确率均明显高于其他3个对比算法,能够有效实现小样本条件下的轮毂电机轴承故障诊断。 展开更多
关键词 轮毂电机 轴承 合成少数过采样技术(SMOTE) 改进灰狼优化算法(IGWO) 随机森林(RF) 故障诊断
下载PDF
基于改进SMOTE不均衡样本处理和IHPO-DBN的变压器故障诊断方法研究
7
作者 周萱 吴伟丽 《电力系统保护与控制》 EI CSCD 北大核心 2024年第11期21-30,共10页
针对由于变压器故障样本不均衡和故障模型陷入局部最优而导致的分类准确率低的问题,提出了基于改进的合成少数类过采样技术和优化深度置信网络(deep belief network, DBN)的变压器故障诊断方法。首先采用聚类融合的K-means算法,通过分... 针对由于变压器故障样本不均衡和故障模型陷入局部最优而导致的分类准确率低的问题,提出了基于改进的合成少数类过采样技术和优化深度置信网络(deep belief network, DBN)的变压器故障诊断方法。首先采用聚类融合的K-means算法,通过分簇和匹配的方式筛选出不稳定的少数类样本用以改进中心点合成少数类过采样技术(center point synthetic minority oversampling technique, CP-SMOTE)算法,并对少数类样本进行扩增,解决了变压器故障数据分布不均衡的问题。其次,通过加入随机逆向学习和自适应惯性权重技术对猎食者优化算法进行改进,并用改进后的算法对DBN的内部参数进行优化调整,提高了模型精度。最后,将不同数据预处理情况下以及不同数据规模下的变压器故障模型进行仿真对比。结果表明,经过数据预处理和模型优化后的变压器故障识别准确率能够提高到98%,有效地解决了故障数据不平衡导致的分类精度低的问题。 展开更多
关键词 变压器故障诊断 不均衡样本 K-MEANS聚类 改进合成少数过采样 改进猎食者优化
下载PDF
基于合成少数类过采样技术算法构建脓毒症合并急性呼吸窘迫综合征的预警模型
8
作者 段红伟 李晓静 +2 位作者 杨兴菊 王飞 杨逢永 《中华危重病急救医学》 CAS CSCD 北大核心 2024年第4期358-363,共6页
目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566... 目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566例脓毒症患者。收集患者的一般资料、基础疾病、感染部位、起始病因、病情严重程度评分、入院时血液指标和动脉血气分析指标、治疗措施、并发症及预后指标。根据患者住院期间是否发生ARDS分组,观察对比两组患者的临床资料;采用单因素和二元多因素Logistic回归分析筛选脓毒症患者住院期间发生ARDS的独立危险因素,并建立回归方程,构建预警模型,同时基于SMOTE算法改进数据集,构建改进数据集的预警模型;绘制受试者工作特征曲线(ROC曲线),对比验证模型的预测效能。结果566例脓毒症患者均纳入最终分析,其中163例在住院期间发生ARDS,403例未发生ARDS。单因素分析显示,两组患者年龄、体质量指数(BMI)、恶性肿瘤、输血史、胰腺及胰周感染、胃肠道感染、起始病因为肺部感染、急性生理学与慢性健康状况评分Ⅱ(APACHEⅡ)、序贯器官衰竭评分(SOFA)、白蛋白(Alb)、血尿素氮(BUN)、机械通气治疗、脓毒性休克比例及重症监护病房(ICU)住院时间差异均有统计学意义。二元多因素Logistic回归分析显示,年龄〔优势比(OR)=3.449,95%可信区间(95%CI)为2.197~5.414,P=0.000〕、起始病因为肺部感染(OR=2.309,95%CI为1.427~3.737,P=0.001)、胰腺及胰周感染(OR=1.937,95%CI为1.236~3.035,P=0.004)、脓毒性休克(OR=3.381,95%CI为1.890~6.047,P=0.000)、SOFA评分(OR=9.311,95%CI为5.831~14.867,P=0.000)为脓毒症患者住院期间发生ARDS的独立危险因素。基于上述危险因素建立预警模型:P1=-4.558+1.238×年龄+0.837×起始病因为肺部感染+0.661×胰腺及胰周感染+1.218×脓毒性休克+2.231×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的ROC曲线下面积(AUC)为0.882(95%CI为0.851~0.914),敏感度为79.8%,特异度为83.4%。基于SMOTE算法改进数据集,再次构建预警模型:P_(2)=-3.279+1.288×年龄+0.763×起始病因为肺部感染+0.635×胰腺及胰周感染+1.068×脓毒性休克+2.201×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的AUC为0.890(95%CI为0.867~0.913),敏感度为85.3%,特异度为79.1%,进一步验证了以上述独立危险因素构建的预警模型具有较高的预测效能。结论脓毒症患者住院期间发生ARDS的危险因素包括年龄、起始病因为肺部感染、胰腺及胰周感染、脓毒性休克和SOFA评分,临床上可依据基于上述危险因素建立的预警模型对脓毒症患者发生ARDS的概率进行评估,进而提前干预,改善预后。 展开更多
关键词 脓毒症 急性呼吸窘迫综合征 危险因素 回归方程 合成少数过采样技术算法
原文传递
心血管事件患者术后30 d死亡风险决策树模型的构建与评估——基于少数类样本合成过采样技术算法
9
作者 陈永庄 莫小乔 谢天 《中华危重症医学杂志(电子版)》 CAS CSCD 2023年第5期390-398,共9页
目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺... 目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺血性心脏病史和/或充血性心力衰竭史患者),提取患者基本临床信息以及相关基础病和手术相关评分信息。采用SMOTE算法对原始数据集进行重建,并应用全子集回归筛选预测因子,将数据集按7∶3分为训练组和验证组,其中训练组用于建立决策树风险预测模型,验证组用于内部验证。结果:患者术后30 d病死率为3.0%(93/3086),术后24 h ICU入住率为4.5%(140/3086)。全子集回归分析显示年龄>75岁[比值比(OR)=1.033,95%置信区间(CI)(1.024,1.042),P<0.001]、贫血[OR=1.368,95%CI(1.211,1.546),P<0.001]、慢性肾脏病分期>2期[OR=1.381,95%CI(1.277,1.494),P<0.001]、术前输血[OR=4.496,95%CI(3.268,6.185),P<0.001]、急诊手术[OR=3.344,95%CI(2.752,4.064),P<0.001]、红细胞分布宽度>15.7%[OR=2.097,95%CI(1.658,2.652),P<0.001]及美国麻醉医师协会分级>2级[OR=3.362,95%CI(2.734,4.135),P<0.001]是心血管事件患者术后30 d死亡的危险因素。应用以上7个预测因子构建决策树模型。结果显示训练组受试者工作特征曲线下面积为0.853[95%CI(0.837,0.868),P<0.001],敏感度、特异度分别为0.765、0.756;验证组受试者工作特征曲线下面积为0.858[95%CI(0.834,0.882),P<0.001],敏感度、特异度分别为0.938、0.612,总体判别能力良好。结论:心血管事件患者术后30 d死亡事件发生率低,为不平衡数据分类问题,本研究基于处理不平衡数据常用的SMOTE算法,避免了小概率事件建模过程中的过拟合问题。同时决策树模型具有直观、便捷、个性化的特点,为医务工作者提供了方便的临床预测工具。 展开更多
关键词 少数样本合成过采样技术算法 术后死亡 全子集回归 预测模型 决策树
原文传递
不平衡样本下基于变异麻雀搜索算法和改进SMOTE的变压器故障诊断方法 被引量:2
10
作者 朱莉 汪小豪 +2 位作者 李豪 姜成龙 曹明海 《高电压技术》 EI CAS CSCD 北大核心 2023年第12期4993-5001,共9页
针对麻雀搜索算法同质化严重和变压器故障样本不平衡导致分类效果不佳的问题,提出了变异麻雀搜索算法优化支持向量机(variation sparrow search algorithm-support vector machine,VSSA-SVM)和改进合成少数过采样技术(improved syntheti... 针对麻雀搜索算法同质化严重和变压器故障样本不平衡导致分类效果不佳的问题,提出了变异麻雀搜索算法优化支持向量机(variation sparrow search algorithm-support vector machine,VSSA-SVM)和改进合成少数过采样技术(improved synthetic minority over-sampling technique,ISMOTE)的变压器故障诊断方法。首先使用Tomek Link对数据集进行去噪,引入中心偏移权重(center offset weight,COW)改进SMOTE算法对不平衡数据集的少数类样本进行合成,得到平衡化处理后的变压器故障数据集。然后,基于变异的思想,构建VSSA-SVM的变压器故障诊断模型。最后,在413例油浸变压器的油中溶解气体分析(dissoived gas anaiysis,DGA)数据上,使用PSO-SVM、SSA-SVM和VSSA-SVM模型进行诊断,诊断结果分别为81.45%、88.71%和96.77%,同时与SMOTE-NND、SVM SMOTE、Borderline-SMOTE、SMOTE以及原始数据集方法相比,ISMOTE分别提升了3.22%、4.03%、6.45%、7.52%、11.29%。结果表明,该文所提方法能准确判别变压器的故障状态,有效解决故障数据不平衡导致分类精度低的问题,具有一定的工程实用价值。 展开更多
关键词 变压器 故障诊断 不平衡样本 改进合成少数过采样 变异麻雀搜索算法
下载PDF
考虑过采样器与分类器参数优化的变压器故障诊断策略 被引量:8
11
作者 栗磊 王廷涛 +3 位作者 赫嘉楠 牛健 梁亚波 苗世洪 《电力自动化设备》 EI CSCD 北大核心 2023年第1期209-217,共9页
变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整... 变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整体结构,阐述故障诊断的实现过程。在此基础上,提出诊断模型中过采样器、分类器、参数优化器3种主要环节的算法实现:针对过采样器,提出一种基于近邻分布特性的改进合成少数过采样算法实现故障样本的均衡化;针对分类器,采用层次式有向无环图支持向量机算法实现故障样本的多标签分类;针对参数优化器,提出一种双层参数优化方法,上层采用层次搜索算法对过采样倍率寻优,下层采用改进哈里斯鹰算法对支持向量机参数寻优。最后,对所提策略进行算例分析,结果表明,所提策略能够合成质量更高的少数类故障样本,实现故障样本的准确分类。 展开更多
关键词 电力变压器 故障诊断 不平衡样本 过采样 基于近邻分布特性的改进合成少数过采样 层次搜索-改进哈里斯鹰算法
下载PDF
基于数据生成模型的仿真样本点插补方法
12
作者 何玉林 陈佳琪 +2 位作者 徐贺鹏 黄哲学 尹剑飞 《系统仿真学报》 CAS CSCD 北大核心 2023年第9期1948-1964,共17页
为解决插补的仿真样本点与真实样本点概率分布不一致的问题,提出了基于数据生成模型的仿真样本点插补方法。基于高斯混合模型构建真实样本点的数据生成模型,其对应的高斯混合模型构件数通过多模型融合的策略确定;利用在真实样本点上获... 为解决插补的仿真样本点与真实样本点概率分布不一致的问题,提出了基于数据生成模型的仿真样本点插补方法。基于高斯混合模型构建真实样本点的数据生成模型,其对应的高斯混合模型构件数通过多模型融合的策略确定;利用在真实样本点上获得的数据生成模型插补所需的仿真样本点,其中数据生成模型的构件以及构件权重用于控制仿真样本点的生成方式。在20个多模多维混合分布上对新方法的可行性和有效性进行了验证,实验结果表明,与随机样本点插补、合成少类过采样技术及其两种最新的变体等4种方法相比,本文方法能够获得更具概率分布一致性的仿真样本点,证实该方法是一种合理的仿真样本点插补方法。 展开更多
关键词 仿真样本点插补 数据生成模型 高斯混合模型 合成少类过采样技术 概率分布一致
下载PDF
基于KNN和自适应的过采样方法
13
作者 张怀啸 陈卓 周必良 《信息与电脑》 2023年第3期93-95,共3页
针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN... 针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN and Adaptive,KAO)。首先,利用KNN去除噪声样本;其次,根据少数类样本K近邻样本中多数类样本数,自适应给少数类样本分配过采样权重;最后,利用新的插值方式生成新样本平衡数据集。在KEEL公开的数据集上进行实验,将提出的KAO算法与SMOTE及其改进算法进行对比,在F1值和g-mean上都有所提升。 展开更多
关键词 不平衡数据分类 少数合成过采样技术(SMOTE) K最邻近算法(KNN) 自适应 过采样
下载PDF
非平衡技术在高速网络入侵检测中的应用 被引量:3
14
作者 赵月爱 陈俊杰 穆晓芳 《计算机应用》 CSCD 北大核心 2009年第7期1806-1808,1812,共4页
针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的... 针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的数据进行学习建模,供在线部分检测。在讨论非平衡数据处理的各种采样技术基础上,采用改进后的过抽样少数样本合成过采样技术(SMOTE)对网络数据进行预处理,采用AdaBoost、随机森林算法等进行分类。另外对特征选取等方面进行了实验,结果表明SMOTE过抽样可提高各少数类的检测,随机森林算法分类效果好而且建模所用的时间稳定。 展开更多
关键词 高速网络 入侵检测 非平衡数据 少数样本合成过采样技术 集成学习 ADABOOST算法 随机森林算法
下载PDF
基于少数类样本合成过抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建
15
作者 庄翠侠 杨俊平 +4 位作者 王妍 刘思园 姜莉晴 季学磊 祝腊香 《临床军医杂志》 CAS 2023年第9期952-955,959,共5页
目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。... 目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。根据周围神经病变发生情况将患者分为周围神经病变组(n=70)和无周围神经病变组(n=135)。收集并记录患者的年龄、性别、病程、居住地、婚姻状态、体质量指数、文化程度、饮酒史、吸烟史、糖化血红蛋白、高血压、空腹血糖及合并糖尿病视网膜病变(DR)等资料。采用Logistic回归分析筛选2型糖尿病合并周围神经病变的危险因素,应用SMOTE算法构建2型糖尿病合并周围神经病变的预警模型。采用受试者工作特征(ROC)曲线对预警模型的预测效能进行分析。结果Logistic回归分析结果显示,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素(P<0.05)。原始预警模Logit(P_(1))H-L检验结果(决定系数R^(2)=0.352,P=0.328),提示Logistic回归模型的拟合度良好。基于SMOTE算法的预警模型Logit(P_(2))H-L检验结果(决定系数R^(2)=0.371,P=0.635),提示基于SMOTE算法的预警模型拟合度良好。原始预警模型的ROC曲线下面积为0.809,基于SMOTE算法的预警模型的ROC曲线下面积为0.927。结论年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,基于SMOTE算法的预警模型能够对2型糖尿病合并周围神经病变进行准确预测,可帮助临床制定周围神经病变的相关防治对策。 展开更多
关键词 2型糖尿病 周围神经病变 少数样本合成过抽样技术算法 预警模型
下载PDF
数据不平衡情况下的柴油机故障诊断方法
16
作者 毕凤荣 郭明智 +3 位作者 毕晓阳 汤代杰 沈鹏飞 黄盟 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第8期810-820,共11页
由于强调整体分类的准确率,机器学习方法在数据不平衡情况下的柴油机故障诊断效果不佳.因此,本文提出一种改进合成少数过采样技术(SMOTE)与机器学习技术相结合的故障诊断方法.首先对SMOTE算法进行改进,采用k近邻算法滤除多数类中的噪声... 由于强调整体分类的准确率,机器学习方法在数据不平衡情况下的柴油机故障诊断效果不佳.因此,本文提出一种改进合成少数过采样技术(SMOTE)与机器学习技术相结合的故障诊断方法.首先对SMOTE算法进行改进,采用k近邻算法滤除多数类中的噪声样本,从而减少各种故障类别之间的重叠.同时,使用k-means算法确定少数类稀疏度和采样权重,减轻类内不平衡.然后,使用改进SMOTE算法平衡柴油机故障数据,并利用机器学习方法进行最终故障诊断.在二维数据集上的实验表明,改进SMOTE算法能有效减轻原始数据中存在的类重叠和类内不平衡问题.柴油机故障诊断实验表明,改进SMOTE算法生成的故障样本能更好地模拟原始故障样本,使用改进SMOTE算法能提高故障诊断方法的准确率. 展开更多
关键词 数据不平衡 故障诊断 合成少数过采样技术 柴油机 振动信号
下载PDF
一种基于随机森林的OFDM系统自适应算法
17
作者 王波 刘潇然 +2 位作者 熊俊 辜方林 张晓瀛 《信号处理》 CSCD 北大核心 2024年第6期1007-1018,共12页
针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间... 针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间隔和循环前缀长度取值,本文提出了基于随机森林的OFDM系统自适应算法。随机森林算法基于集成的思想,能够有效处理高维度数据,并且具有高效率、高准确率和强泛化能力等优势,可以在复杂的数据场景下进行有效的分类。通过提取通信过程中信噪比、用户移动速度、最大多普勒频率和均方根时延扩展等信道特征与OFDM系统的子载波间隔和循环前缀长度组成训练样本,利用随机森林算法创建了OFDM系统参数多分类模型。所提模型可以根据输入的信道特征,实现OFDM系统子载波间隔和循环前缀长度的自适应分配。同时,针对训练样本主要集中在少数几个系统参数类别的情况,利用合成少数类过采样技术对较少样本数的类别进行扩充,满足了随机森林算法对训练样本类别平衡化的需求,进一步提高了算法的分类准确率。相比传统的自适应算法,所提算法具有更高的分类准确率和模型泛化能力。分析和仿真结果表明,与子载波间隔和循环前缀长度固定的OFDM系统相比,本文所提出的自适应算法能够准确选择出最优的系统参数,可以有效地减轻信道中符号间干扰和子载波间干扰的影响,从而在整个信噪比范围上提供最大的平均频谱效率。基于随机森林的OFDM系统自适应算法能够动态地分配子载波间隔和循环前缀长度,增强OFDM系统的通信质量和抗干扰能力,实现在不同信道环境下的可靠传输。 展开更多
关键词 正交频分复用 合成少数过采样技术 随机森林 自适应算法
下载PDF
基于电机数据图像化的多时序变量间接卡车误吊起检测
18
作者 刘嘉杰 刘国平 胡文山 《计算机工程》 CAS CSCD 北大核心 2024年第10期370-380,共11页
自动化集装箱码头的装卸作业中经常发生集装箱与卡车同时被吊起的安全事故,导致人员伤亡及货品、车辆的损坏。为解决该问题,提出一种基于电机数据图像化处理的多时序变量间接卡车误吊起检测方法(MEIN)。该方法通过神经网络分析异步电机... 自动化集装箱码头的装卸作业中经常发生集装箱与卡车同时被吊起的安全事故,导致人员伤亡及货品、车辆的损坏。为解决该问题,提出一种基于电机数据图像化处理的多时序变量间接卡车误吊起检测方法(MEIN)。该方法通过神经网络分析异步电机在吊起集装箱和卡车的过程中产生的电流和电压异常,从而判断是否发生了误吊起事故。采集吊机的三相电流和电压数据,并基于物理公式进行特征工程计算出多个相关时序物理量,采用滑动窗口、SMOTE-Tomek综合采样的方式扩大样本总数并平衡类别数量,最后将多时序变量转换为图像的形式以EfficientNet进行分类。实验结果表明,该方法能在复杂的环境下(例如雨雾天气或轮胎被遮挡)保持稳定的检测性能,各测试地区的AUC均在0.997以上。相较于传统的基于激光雷达和计算机视觉的检测方法,MEIN方法具有成本低、精度高、计算量小并且抗环境干扰能力强等优点。该方法已在武汉、青岛、钦州、梅山等多地部署,为提高自动化集装箱码头的作业安全提供一种有效的解决方案。 展开更多
关键词 时间序列分类 卷积神经网络 合成少数样本过采样技术 Tomek Links欠采样技术 卡车误吊起检测
下载PDF
基于卷积神经网络的液化预测模型及可解释性分析
19
作者 龙潇 孙锐 郑桐 《岩土力学》 EI CAS CSCD 北大核心 2024年第9期2741-2753,共13页
常规液化判别方法通常是半经验方法,存在人为因素干扰,成功率及均衡性不佳。现有的机器学习方法缺乏足够的样本支撑,存在一定的局限性。通过整合液化数据集,选取修正标准贯击数、细粒含量、土层深度、地下水位深度、总上覆应力、有效上... 常规液化判别方法通常是半经验方法,存在人为因素干扰,成功率及均衡性不佳。现有的机器学习方法缺乏足够的样本支撑,存在一定的局限性。通过整合液化数据集,选取修正标准贯击数、细粒含量、土层深度、地下水位深度、总上覆应力、有效上覆应力、门槛加速度、循环剪应力比、剪切波速、震级与地表峰值加速度11个液化特征建立卷积神经网络(convolutional neural network,简称CNN)模型。引入边界合成少数过采样技术消除不平衡数据集的影响。将CNN模型与随机森林模型、逻辑回归模型、支持向量机模型、极致梯度提升模型和规范方法进行对比,并结合沙普利加性解释(SHapley Additive exPlanations,简称SHAP)分析输入特征对预测结果的影响趋势。结果表明,CNN模型准确率达92.58%,各项指标均优于其他4种机器学习模型和规范方法。对SHAP结果分析可知,修正标贯击数小于15的土层液化概率较高,循环剪应力比CSR小于0.25的土层更不易液化。各因素的影响规律均符合现有认知,预测模型合理可靠。 展开更多
关键词 机器学习 液化预测 卷积神经网络 边界合成少数过采样技术 沙普利加性解释(SHAP)
下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:8
20
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数过采样技术(SMOTE) 构造性覆盖算法(CCA)
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部