期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
基于少数类样品合成过抽样技术算法的血液透析患者动静脉内瘘功能不良的预测模型建立
1
作者 黄建钰 端靓靓 《临床肾脏病杂志》 2024年第5期378-384,共7页
目的分析血液透析患者动静脉内瘘(arteriovenous fistula,AVF)功能不良的危险因素,并基于少数类样品合成过抽样技术(synthetic minority oversampling technique,SMOTE)算法建立风险预警模型。方法选取安庆市立医院2019年1月1日至2021... 目的分析血液透析患者动静脉内瘘(arteriovenous fistula,AVF)功能不良的危险因素,并基于少数类样品合成过抽样技术(synthetic minority oversampling technique,SMOTE)算法建立风险预警模型。方法选取安庆市立医院2019年1月1日至2021年12月31日期间在肾内科就诊且以AVF作为透析通路的血液透析患者400例作为研究对象,根据血液透析患者AVF功能将其分为AVF功能不良组(81例)和AVF功能正常组(319例),分析所选血液透析患者的临床资料,并通过单因素与多因素Logistic回归分析筛选血液透析患者AVF功能不良的危险因素,再通过SMOTE算法对上述危险因素的数据进行重建,从而获得血液透析患者AVF功能不良风险预警模型,并对两种模型的预测效能进行比较。结果女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素(P<0.05)。根据上述危险因素及回归系数,获得原始预警模型P1预警模型的受试者工作特征曲线曲线下面积为0.787(95%CI:0.743~0.831),P2预警模型的受试者工作特征曲线曲线下面积为0.870(95%CI:0.812~0.928),基于SMOTE算法预警模型的真正类率值比原始数据预警模型(0.731比0.763)低,而PPV值(0.742比0.866)、F-score(0.729比0.886)均比原始数据预警模型高。结论女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素,根据上述危险因素构建的SMOTE预警模型相较于传统Logistic回归模型有着更高的预测价值。 展开更多
关键词 少数样品合成过抽样技术 肾透析 动静脉内瘘 功能不良 预测模型 血液透析
下载PDF
基于少数类样本合成过抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建
2
作者 庄翠侠 杨俊平 +4 位作者 王妍 刘思园 姜莉晴 季学磊 祝腊香 《临床军医杂志》 CAS 2023年第9期952-955,959,共5页
目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。... 目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。根据周围神经病变发生情况将患者分为周围神经病变组(n=70)和无周围神经病变组(n=135)。收集并记录患者的年龄、性别、病程、居住地、婚姻状态、体质量指数、文化程度、饮酒史、吸烟史、糖化血红蛋白、高血压、空腹血糖及合并糖尿病视网膜病变(DR)等资料。采用Logistic回归分析筛选2型糖尿病合并周围神经病变的危险因素,应用SMOTE算法构建2型糖尿病合并周围神经病变的预警模型。采用受试者工作特征(ROC)曲线对预警模型的预测效能进行分析。结果Logistic回归分析结果显示,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素(P<0.05)。原始预警模Logit(P_(1))H-L检验结果(决定系数R^(2)=0.352,P=0.328),提示Logistic回归模型的拟合度良好。基于SMOTE算法的预警模型Logit(P_(2))H-L检验结果(决定系数R^(2)=0.371,P=0.635),提示基于SMOTE算法的预警模型拟合度良好。原始预警模型的ROC曲线下面积为0.809,基于SMOTE算法的预警模型的ROC曲线下面积为0.927。结论年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,基于SMOTE算法的预警模型能够对2型糖尿病合并周围神经病变进行准确预测,可帮助临床制定周围神经病变的相关防治对策。 展开更多
关键词 2型糖尿病 周围神经病变 少数类样本合成过抽样技术算法 预警模型
下载PDF
基于人工少数类样本合成过抽样技术算法构建胃癌术后便秘预测模型及护理研究
3
作者 卞海磊 李陵君 +2 位作者 李丹丹 丁佳骏 倪荔 《国际护理学杂志》 2023年第23期4321-4325,共5页
目的分析胃癌患者术后是否发生便秘、其产生原因及相关影响因素, 为构建便秘风险预测模型, 减少术后发生便秘提供参考。方法选取2020年1月至2023年1月同济大学附属东方医院收治的124例胃癌术后患者, 使用单因素比较及Logistic多因素回... 目的分析胃癌患者术后是否发生便秘、其产生原因及相关影响因素, 为构建便秘风险预测模型, 减少术后发生便秘提供参考。方法选取2020年1月至2023年1月同济大学附属东方医院收治的124例胃癌术后患者, 使用单因素比较及Logistic多因素回归分析模型筛选出其中独立影响病情的因素。使用C指数对该模型的准确度进行验证。采用少数类样本合成过抽样技术(SMOTE)算法重构相关影响要素的原始数据, 从而得到通过SMOTE算法下的胃癌术后患者便秘模型, 并在该模型的基础上进行了分析, 得到科学的护理结果。结果 124例中有42例患者术后发生便秘。术前有便秘史、手术方式、饮食习惯等为胃癌术后发生便秘的相关因素(P<0.05)。手术方式、卧床时间、性别是胃癌患者术后发生便秘的独立危险因素(P<0.05), 手术方式为传统开腹手术治疗、卧床时间长、男患者术后易出现便秘。将手术方式、卧床时间、性别纳入预测模型中, 对原始Logistic回归模型1与基于SMOTE重建的Logistic回归模型2进行分析, 采用ROC曲线检验结果显示, Logistic回归模型2的ROC检验效能显著, (AUC模型1=0.795, AUC模型2=0.838)。采用10折交叉法, 将与该模型相对应的数据均分为20份, 每个数据轮流将其中1份作为测试集, 剩余数据均用作训练集检验。其中, 2个预警模型的预测质量, 模型2为0.75, 显著优于原始Logistic回归预警模型0.70(P<0.05)。结论胃癌术后患者便秘发生率较高, 并且术后便秘会持续很长一段时间, 患者出现排便困难及腹胀等并发症, 在临床上应该加大对胃癌患者术后的观察。通过便秘预测风险模型, 可以对便秘风险做出判断, 尽可能尽早采取相应的预防措施, 提高医护工作质量, 从而加快患者病情恢复, 实现最佳预后。 展开更多
关键词 样本合成过抽样技术算法 胃癌:术后 便秘 预警模型
原文传递
基于改进合成少数类过采样技术的非概率可靠性指标解
4
作者 张梦 陈旭勇 +1 位作者 彭元林 李书雅 《武汉工程大学学报》 CAS 2024年第2期231-236,共6页
当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠... 当结构的功能函数呈现高度非线性、极限状态曲面为多区域的情形时,现有算法无法有效求解非概率可靠性指标,为解决此类问题,将合成少数类过采样技术(SMOTE)进行改进,提出了基于改进SMOTE算法的非概率可靠性指标解法。首先基于非概率可靠性指标的几何意义,将样本分类策略、超球限制策略与标准SMOTE算法相结合,提出了改进SMOTE算法来进一步提升算法在极限状态曲面附近的采样效率;然后结合改进SMOTE算法在标准化空间中高精度的拟合局部极限状态曲面,进而搜索得到非概率可靠性指标;最后给出了基于改进SMOTE算法的非概率可靠性指标解的主要流程。数值算例表明,当极限状态曲面呈现局部闭合、多区域的特点时,改进后的SMOTE算法可以高效地获取位于极限状态曲面附近的样本点,进而高精度地拟合极限状态曲面。将本文方法的计算结果与解析解对比,相对误差远远小于工程中的最大误差限值5%,说明改进SMOTE算法能够较好地处理高度非线性功能函数,验证了所提算法的有效性和实用性。 展开更多
关键词 非概率可靠性指标 合成少数过采样技术 样本策略 超球限制策略 极限状态曲面
下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:18
5
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 少数样本合成过采样技术 采样倍率 遗传算法
下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法
6
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本分布不平衡 改进合成少数过采样技术 深度残差网络
下载PDF
基于合成少数类过采样技术算法构建脓毒症合并急性呼吸窘迫综合征的预警模型
7
作者 段红伟 李晓静 +2 位作者 杨兴菊 王飞 杨逢永 《中华危重病急救医学》 CAS CSCD 北大核心 2024年第4期358-363,共6页
目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566... 目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566例脓毒症患者。收集患者的一般资料、基础疾病、感染部位、起始病因、病情严重程度评分、入院时血液指标和动脉血气分析指标、治疗措施、并发症及预后指标。根据患者住院期间是否发生ARDS分组,观察对比两组患者的临床资料;采用单因素和二元多因素Logistic回归分析筛选脓毒症患者住院期间发生ARDS的独立危险因素,并建立回归方程,构建预警模型,同时基于SMOTE算法改进数据集,构建改进数据集的预警模型;绘制受试者工作特征曲线(ROC曲线),对比验证模型的预测效能。结果566例脓毒症患者均纳入最终分析,其中163例在住院期间发生ARDS,403例未发生ARDS。单因素分析显示,两组患者年龄、体质量指数(BMI)、恶性肿瘤、输血史、胰腺及胰周感染、胃肠道感染、起始病因为肺部感染、急性生理学与慢性健康状况评分Ⅱ(APACHEⅡ)、序贯器官衰竭评分(SOFA)、白蛋白(Alb)、血尿素氮(BUN)、机械通气治疗、脓毒性休克比例及重症监护病房(ICU)住院时间差异均有统计学意义。二元多因素Logistic回归分析显示,年龄〔优势比(OR)=3.449,95%可信区间(95%CI)为2.197~5.414,P=0.000〕、起始病因为肺部感染(OR=2.309,95%CI为1.427~3.737,P=0.001)、胰腺及胰周感染(OR=1.937,95%CI为1.236~3.035,P=0.004)、脓毒性休克(OR=3.381,95%CI为1.890~6.047,P=0.000)、SOFA评分(OR=9.311,95%CI为5.831~14.867,P=0.000)为脓毒症患者住院期间发生ARDS的独立危险因素。基于上述危险因素建立预警模型:P1=-4.558+1.238×年龄+0.837×起始病因为肺部感染+0.661×胰腺及胰周感染+1.218×脓毒性休克+2.231×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的ROC曲线下面积(AUC)为0.882(95%CI为0.851~0.914),敏感度为79.8%,特异度为83.4%。基于SMOTE算法改进数据集,再次构建预警模型:P_(2)=-3.279+1.288×年龄+0.763×起始病因为肺部感染+0.635×胰腺及胰周感染+1.068×脓毒性休克+2.201×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的AUC为0.890(95%CI为0.867~0.913),敏感度为85.3%,特异度为79.1%,进一步验证了以上述独立危险因素构建的预警模型具有较高的预测效能。结论脓毒症患者住院期间发生ARDS的危险因素包括年龄、起始病因为肺部感染、胰腺及胰周感染、脓毒性休克和SOFA评分,临床上可依据基于上述危险因素建立的预警模型对脓毒症患者发生ARDS的概率进行评估,进而提前干预,改善预后。 展开更多
关键词 脓毒症 急性呼吸窘迫综合征 危险因素 回归方程 合成少数过采样技术算法
原文传递
基于BSMOTE和逆转欠抽样的不均衡数据分类算法 被引量:4
8
作者 陈睿 张亮 +1 位作者 杨静 胡荣贵 《计算机应用研究》 CSCD 北大核心 2014年第11期3299-3303,共5页
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类... 针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。 展开更多
关键词 不均衡数据集 边界少数样本合成过抽样技术 逆转欠抽样技术 多分器集成
下载PDF
一种基于随机森林的OFDM系统自适应算法
9
作者 王波 刘潇然 +2 位作者 熊俊 辜方林 张晓瀛 《信号处理》 CSCD 北大核心 2024年第6期1007-1018,共12页
针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间... 针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间隔和循环前缀长度取值,本文提出了基于随机森林的OFDM系统自适应算法。随机森林算法基于集成的思想,能够有效处理高维度数据,并且具有高效率、高准确率和强泛化能力等优势,可以在复杂的数据场景下进行有效的分类。通过提取通信过程中信噪比、用户移动速度、最大多普勒频率和均方根时延扩展等信道特征与OFDM系统的子载波间隔和循环前缀长度组成训练样本,利用随机森林算法创建了OFDM系统参数多分类模型。所提模型可以根据输入的信道特征,实现OFDM系统子载波间隔和循环前缀长度的自适应分配。同时,针对训练样本主要集中在少数几个系统参数类别的情况,利用合成少数类过采样技术对较少样本数的类别进行扩充,满足了随机森林算法对训练样本类别平衡化的需求,进一步提高了算法的分类准确率。相比传统的自适应算法,所提算法具有更高的分类准确率和模型泛化能力。分析和仿真结果表明,与子载波间隔和循环前缀长度固定的OFDM系统相比,本文所提出的自适应算法能够准确选择出最优的系统参数,可以有效地减轻信道中符号间干扰和子载波间干扰的影响,从而在整个信噪比范围上提供最大的平均频谱效率。基于随机森林的OFDM系统自适应算法能够动态地分配子载波间隔和循环前缀长度,增强OFDM系统的通信质量和抗干扰能力,实现在不同信道环境下的可靠传输。 展开更多
关键词 正交频分复用 合成少数过采样技术 随机森林 自适应算法
下载PDF
不均衡小样本下的设备状态与寿命预测 被引量:1
10
作者 陈扬 刘勤明 郑伊寒 《计算机集成制造系统》 EI CSCD 北大核心 2024年第1期217-226,共10页
针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系... 针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系数,选择性地对权值大于裁剪系数的样本进行处理从而提高计算效率。其次,通过类k近邻法则过滤出错分类样本权值,随后引入合成少数类过采样技术提升该种类样本权值个数,有效规避迭代过程中不均衡数据集可能引起的过拟合问题。最后,通过对设备运行状态进行准确分类并拟合出与时间相关的设备寿命曲线预测设备寿命。算例结果表明,所提模型能够有效分析出不均衡数据下的设备健康状况,同时也可以对剩余寿命进行有效预测。 展开更多
关键词 样本 不均衡数据 ADABOOST算法 合成少数过采样技术 剩余寿命预测
下载PDF
心血管事件患者术后30 d死亡风险决策树模型的构建与评估——基于少数类样本合成过采样技术算法
11
作者 陈永庄 莫小乔 谢天 《中华危重症医学杂志(电子版)》 CAS CSCD 2023年第5期390-398,共9页
目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺... 目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺血性心脏病史和/或充血性心力衰竭史患者),提取患者基本临床信息以及相关基础病和手术相关评分信息。采用SMOTE算法对原始数据集进行重建,并应用全子集回归筛选预测因子,将数据集按7∶3分为训练组和验证组,其中训练组用于建立决策树风险预测模型,验证组用于内部验证。结果:患者术后30 d病死率为3.0%(93/3086),术后24 h ICU入住率为4.5%(140/3086)。全子集回归分析显示年龄>75岁[比值比(OR)=1.033,95%置信区间(CI)(1.024,1.042),P<0.001]、贫血[OR=1.368,95%CI(1.211,1.546),P<0.001]、慢性肾脏病分期>2期[OR=1.381,95%CI(1.277,1.494),P<0.001]、术前输血[OR=4.496,95%CI(3.268,6.185),P<0.001]、急诊手术[OR=3.344,95%CI(2.752,4.064),P<0.001]、红细胞分布宽度>15.7%[OR=2.097,95%CI(1.658,2.652),P<0.001]及美国麻醉医师协会分级>2级[OR=3.362,95%CI(2.734,4.135),P<0.001]是心血管事件患者术后30 d死亡的危险因素。应用以上7个预测因子构建决策树模型。结果显示训练组受试者工作特征曲线下面积为0.853[95%CI(0.837,0.868),P<0.001],敏感度、特异度分别为0.765、0.756;验证组受试者工作特征曲线下面积为0.858[95%CI(0.834,0.882),P<0.001],敏感度、特异度分别为0.938、0.612,总体判别能力良好。结论:心血管事件患者术后30 d死亡事件发生率低,为不平衡数据分类问题,本研究基于处理不平衡数据常用的SMOTE算法,避免了小概率事件建模过程中的过拟合问题。同时决策树模型具有直观、便捷、个性化的特点,为医务工作者提供了方便的临床预测工具。 展开更多
关键词 少数样本合成过采样技术算法 术后死亡 全子集回归 预测模型 决策树
原文传递
不平衡数据集异常检测和分类算法
12
作者 樊芮 陈湘媛 +1 位作者 王冠男 崔艳辉 《电力系统及其自动化学报》 CSCD 北大核心 2023年第9期112-119,共8页
针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对... 针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对“异常”数据进行过采样以构建平衡数据集,最后利用所提最大类间-类内距K-均值聚类进行自动聚类,实现3种异常数据的分类判决。结果表明,所提方法能够获得较高的异常检测和分类性能,并且具有较强的泛化能力。 展开更多
关键词 异常检测及分 不平衡数据 最大间-内距K-均值聚 少数样本合成技术 过采样
下载PDF
基于安全样本筛选的不平衡数据抽样方法 被引量:6
13
作者 石洪波 刘焱昕 冀素琴 《模式识别与人工智能》 EI CSCD 北大核心 2019年第6期545-556,共12页
针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确... 针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确定决策边界无价值的实例和噪音实例,采用 SMOTE 对筛选后数据集进行过抽样.基于安全样本筛选的欠抽样既避免原始数据中有价值信息的丢失,又丢弃大类中的噪音实例,缓减过抽样数据集类重叠的问题.实验表明在处理不平衡数据集,特别是维数较高的不平衡数据集时 Screening_SMOTE 的有效性. 展开更多
关键词 不平衡数据 安全样本筛选 抽样 不平衡比率 合成过抽样技术(SMOTE)
下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:6
14
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数过采样技术(SMOTE)算法 条件生成对抗网络 XGBoost模型 问题
下载PDF
基于不平衡数据集的主动学习分类算法 被引量:6
15
作者 赵小强 刘梦依 《控制工程》 CSCD 北大核心 2019年第2期314-319,共6页
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标... 针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法。该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,以距离公式为衡量标准划分超平面,在分类超平面两侧选择最近距离的等量对称的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零。利用UCI数据集中的数据实验表明,该算法有效地减少了噪声数据对分类的影响,并有效改善不平衡数据集的分类精度。 展开更多
关键词 数据挖掘 不平衡数据集 少数样本合成过采样技术
下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:32
16
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分 合成少数过采样技术 K近邻 过采样 ADABOOST算法
下载PDF
面向不均衡数据集的过抽样算法 被引量:8
17
作者 崔鑫 徐华 宿晨 《计算机应用》 CSCD 北大核心 2020年第6期1662-1667,共6页
合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线... 合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 簇心 不均衡数据集 合成少数过抽样技术 过采样
下载PDF
类别不均衡学习中的抽样策略研究 被引量:6
18
作者 刘树栋 张可 《计算机工程与应用》 CSCD 北大核心 2019年第21期1-17,共17页
类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方... 类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中三种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。 展开更多
关键词 不均衡学习 集成学习 抽样 特征选择 支持向量机 合成少数过抽样技术 混合抽样
下载PDF
基于鲸鱼优化和深度学习的不平衡大数据分类算法 被引量:8
19
作者 孙二华 胡云冰 《西南师范大学学报(自然科学版)》 CAS 2021年第5期127-133,共7页
针对当前不平衡数据分类算法中存在的分类精度低和容易陷入局部最优状态的问题,提出一种基于鲸鱼优化和深度学习的不平衡大数据分类算法.该算法由特征选择、预处理和分类3个阶段组成:①为了提高分类精度,使用鲸鱼优化算法(whale optimiz... 针对当前不平衡数据分类算法中存在的分类精度低和容易陷入局部最优状态的问题,提出一种基于鲸鱼优化和深度学习的不平衡大数据分类算法.该算法由特征选择、预处理和分类3个阶段组成:①为了提高分类精度,使用鲸鱼优化算法(whale optimization algorithm,WOA)在不平衡数据中寻找最优特征子集,消除不相关和多余的特征;②采用局部敏感哈希的合成少数类过采样技术(locality sensitive hashing synthetic minority oversampling technique,LSH-SMOT)对数据集进行预处理,解决类不平衡问题;③使用基于WOA算法优化的双向递归神经网络(bidirectional recurrent neural networks,BRNN)对预处理后的数据集进行分类.实验结果表明:本文算法能够有效解决不平衡数据集的分类问题,相比于其他算法,本文算法在分类精度和局部最优避免率方面具有明显优势. 展开更多
关键词 不平衡大数据分 鲸鱼优化算法 深度学习 合成少数过采样技术
下载PDF
基于改进狮群算法优化神经网络的糖尿病风险预测
20
作者 惠亚楠 冯慧芳 《软件工程与应用》 2023年第3期474-484,共11页
糖尿病风险评估预测有助于早期发现糖尿病,降低发病率和并发症。针对糖尿病风险预测问题,提出一种基于改进狮群算法优化神经网络的糖尿病风险预测模型。引入非线性扰动因子改进狮群算法,使得算法既能加强全局优化能力,避免陷入局部最优... 糖尿病风险评估预测有助于早期发现糖尿病,降低发病率和并发症。针对糖尿病风险预测问题,提出一种基于改进狮群算法优化神经网络的糖尿病风险预测模型。引入非线性扰动因子改进狮群算法,使得算法既能加强全局优化能力,避免陷入局部最优,又能保证局部优化能力,提高算法的收敛速度。利用改进狮群算法(ILSO)的寻优能力优化神经网络的权重和偏置参数,建立基于ILSO-BP神经网络的预测模型。同时,采用少类样本合成过采样技术和递归特征消除方法对糖尿病数据进行预处理,提高模型预测能力。在真实糖尿病数据集PIMA上的实验结果表明,基于ILSO-BP神经网络的糖尿病风险预测模型,其预测性能优于基线模型,也优于基于遗传算法、鲸鱼优化、粒子群优化等算法优化的神经网络预测模型,对糖尿病风险具有良好预测能力,能够对糖尿病早期筛查起到辅助作用。 展开更多
关键词 糖尿病预测 改进狮群优化算法 BP神经网络 合成少数过采样技术 递归特征消除
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部