期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于少数类样品合成过抽样技术算法的血液透析患者动静脉内瘘功能不良的预测模型建立
1
作者 黄建钰 端靓靓 《临床肾脏病杂志》 2024年第5期378-384,共7页
目的分析血液透析患者动静脉内瘘(arteriovenous fistula,AVF)功能不良的危险因素,并基于少数类样品合成过抽样技术(synthetic minority oversampling technique,SMOTE)算法建立风险预警模型。方法选取安庆市立医院2019年1月1日至2021... 目的分析血液透析患者动静脉内瘘(arteriovenous fistula,AVF)功能不良的危险因素,并基于少数类样品合成过抽样技术(synthetic minority oversampling technique,SMOTE)算法建立风险预警模型。方法选取安庆市立医院2019年1月1日至2021年12月31日期间在肾内科就诊且以AVF作为透析通路的血液透析患者400例作为研究对象,根据血液透析患者AVF功能将其分为AVF功能不良组(81例)和AVF功能正常组(319例),分析所选血液透析患者的临床资料,并通过单因素与多因素Logistic回归分析筛选血液透析患者AVF功能不良的危险因素,再通过SMOTE算法对上述危险因素的数据进行重建,从而获得血液透析患者AVF功能不良风险预警模型,并对两种模型的预测效能进行比较。结果女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素(P<0.05)。根据上述危险因素及回归系数,获得原始预警模型P1预警模型的受试者工作特征曲线曲线下面积为0.787(95%CI:0.743~0.831),P2预警模型的受试者工作特征曲线曲线下面积为0.870(95%CI:0.812~0.928),基于SMOTE算法预警模型的真正类率值比原始数据预警模型(0.731比0.763)低,而PPV值(0.742比0.866)、F-score(0.729比0.886)均比原始数据预警模型高。结论女性、糖尿病、白蛋白<35 g/L、C反应蛋白≥25 mg/L、血磷>2 mmol/L、AVF狭窄为血液透析患者AVF功能不良的危险因素,根据上述危险因素构建的SMOTE预警模型相较于传统Logistic回归模型有着更高的预测价值。 展开更多
关键词 少数类样品合成过抽样技术 肾透析 动静脉内瘘 功能不良 预测模型 血液透析
下载PDF
非平衡样本下基于生成对抗网络过抽样技术的公司债券违约风险预测研究 被引量:8
2
作者 姚潇 李可 余乐安 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2022年第10期2617-2634,共18页
本文基于我国在公开市场发行过信用类债券的违约数据,利用了基于Wasserstein距离的生成对抗网络模型和SMOTE抽样技术对违约样本进行过抽样以提高非平衡样本下违约风险模型的预测效果.为检验过抽样技术对分类模型的改进效果,实证分析对... 本文基于我国在公开市场发行过信用类债券的违约数据,利用了基于Wasserstein距离的生成对抗网络模型和SMOTE抽样技术对违约样本进行过抽样以提高非平衡样本下违约风险模型的预测效果.为检验过抽样技术对分类模型的改进效果,实证分析对不同的重抽样样本类别比例下分类模型的预测结果进行比较.研究结果表明过抽样技术能够显著地分类模型的预测精度,而且预测效果随着样本类别比例达到平衡而不断提高.和经典的SMOTE抽样技术相比,基于Wasserstein距离的生成对抗网络过抽样技术不仅可以提高分类模型的AUC指标,同时还能显著地改进F1得分.研究结果表明通过生成对抗网络对少数类样本进行过抽样能够显著地提升机器学习算法对债券违约风险的预测效果,为研究非平衡样本下的债券违约风险预测提供一种新的解决思路. 展开更多
关键词 债券违约风险 生成对抗网络 非平衡样本分类 过抽样技术
原文传递
基于少数类样本合成过抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建 被引量:1
3
作者 庄翠侠 杨俊平 +4 位作者 王妍 刘思园 姜莉晴 季学磊 祝腊香 《临床军医杂志》 CAS 2023年第9期952-955,959,共5页
目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。... 目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。根据周围神经病变发生情况将患者分为周围神经病变组(n=70)和无周围神经病变组(n=135)。收集并记录患者的年龄、性别、病程、居住地、婚姻状态、体质量指数、文化程度、饮酒史、吸烟史、糖化血红蛋白、高血压、空腹血糖及合并糖尿病视网膜病变(DR)等资料。采用Logistic回归分析筛选2型糖尿病合并周围神经病变的危险因素,应用SMOTE算法构建2型糖尿病合并周围神经病变的预警模型。采用受试者工作特征(ROC)曲线对预警模型的预测效能进行分析。结果Logistic回归分析结果显示,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素(P<0.05)。原始预警模Logit(P_(1))H-L检验结果(决定系数R^(2)=0.352,P=0.328),提示Logistic回归模型的拟合度良好。基于SMOTE算法的预警模型Logit(P_(2))H-L检验结果(决定系数R^(2)=0.371,P=0.635),提示基于SMOTE算法的预警模型拟合度良好。原始预警模型的ROC曲线下面积为0.809,基于SMOTE算法的预警模型的ROC曲线下面积为0.927。结论年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,基于SMOTE算法的预警模型能够对2型糖尿病合并周围神经病变进行准确预测,可帮助临床制定周围神经病变的相关防治对策。 展开更多
关键词 2型糖尿病 周围神经病变 少数类样本合成过抽样技术算法 预警模型
下载PDF
基于人工少数类样本合成过抽样技术算法构建胃癌术后便秘预测模型及护理研究
4
作者 卞海磊 李陵君 +2 位作者 李丹丹 丁佳骏 倪荔 《国际护理学杂志》 2023年第23期4321-4325,共5页
目的分析胃癌患者术后是否发生便秘、其产生原因及相关影响因素, 为构建便秘风险预测模型, 减少术后发生便秘提供参考。方法选取2020年1月至2023年1月同济大学附属东方医院收治的124例胃癌术后患者, 使用单因素比较及Logistic多因素回... 目的分析胃癌患者术后是否发生便秘、其产生原因及相关影响因素, 为构建便秘风险预测模型, 减少术后发生便秘提供参考。方法选取2020年1月至2023年1月同济大学附属东方医院收治的124例胃癌术后患者, 使用单因素比较及Logistic多因素回归分析模型筛选出其中独立影响病情的因素。使用C指数对该模型的准确度进行验证。采用少数类样本合成过抽样技术(SMOTE)算法重构相关影响要素的原始数据, 从而得到通过SMOTE算法下的胃癌术后患者便秘模型, 并在该模型的基础上进行了分析, 得到科学的护理结果。结果 124例中有42例患者术后发生便秘。术前有便秘史、手术方式、饮食习惯等为胃癌术后发生便秘的相关因素(P<0.05)。手术方式、卧床时间、性别是胃癌患者术后发生便秘的独立危险因素(P<0.05), 手术方式为传统开腹手术治疗、卧床时间长、男患者术后易出现便秘。将手术方式、卧床时间、性别纳入预测模型中, 对原始Logistic回归模型1与基于SMOTE重建的Logistic回归模型2进行分析, 采用ROC曲线检验结果显示, Logistic回归模型2的ROC检验效能显著, (AUC模型1=0.795, AUC模型2=0.838)。采用10折交叉法, 将与该模型相对应的数据均分为20份, 每个数据轮流将其中1份作为测试集, 剩余数据均用作训练集检验。其中, 2个预警模型的预测质量, 模型2为0.75, 显著优于原始Logistic回归预警模型0.70(P<0.05)。结论胃癌术后患者便秘发生率较高, 并且术后便秘会持续很长一段时间, 患者出现排便困难及腹胀等并发症, 在临床上应该加大对胃癌患者术后的观察。通过便秘预测风险模型, 可以对便秘风险做出判断, 尽可能尽早采取相应的预防措施, 提高医护工作质量, 从而加快患者病情恢复, 实现最佳预后。 展开更多
关键词 数类样本合成过抽样技术算法 胃癌:术后 便秘 预警模型
原文传递
基于BSMOTE和逆转欠抽样的不均衡数据分类算法 被引量:4
5
作者 陈睿 张亮 +1 位作者 杨静 胡荣贵 《计算机应用研究》 CSCD 北大核心 2014年第11期3299-3303,共5页
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类... 针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。 展开更多
关键词 不均衡数据集 边界少数类样本合成过抽样技术 逆转欠抽样技术 多分类器集成
下载PDF
基于安全样本筛选的不平衡数据抽样方法 被引量:6
6
作者 石洪波 刘焱昕 冀素琴 《模式识别与人工智能》 EI CSCD 北大核心 2019年第6期545-556,共12页
针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确... 针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和 SMOTE 结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确定决策边界无价值的实例和噪音实例,采用 SMOTE 对筛选后数据集进行过抽样.基于安全样本筛选的欠抽样既避免原始数据中有价值信息的丢失,又丢弃大类中的噪音实例,缓减过抽样数据集类重叠的问题.实验表明在处理不平衡数据集,特别是维数较高的不平衡数据集时 Screening_SMOTE 的有效性. 展开更多
关键词 不平衡数据 安全样本筛选 抽样 不平衡比率 合成小类的过抽样技术(SMOTE)
下载PDF
面向不均衡数据集的过抽样算法 被引量:9
7
作者 崔鑫 徐华 宿晨 《计算机应用》 CSCD 北大核心 2020年第6期1662-1667,共6页
合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线... 合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 簇心 不均衡数据集 合成少数类过抽样技术 聚类 过采样
下载PDF
类别不均衡学习中的抽样策略研究 被引量:7
8
作者 刘树栋 张可 《计算机工程与应用》 CSCD 北大核心 2019年第21期1-17,共17页
类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方... 类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有三种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中三种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。 展开更多
关键词 不均衡学习 集成学习 抽样 特征选择 支持向量机 合成少数类过抽样技术 混合抽样
下载PDF
基于分组提升集成的跨领域文本情感分类 被引量:12
9
作者 赵传君 王素格 +1 位作者 李德玉 李欣 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期629-638,共10页
针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法.该方法首先利用少量人工标注的目标领域数据,基于合成过抽样... 针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法.该方法首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据.在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据.在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器.在亚马逊购物网站4个领域的情感数据集上的实验表明,基于分组提升集成的跨领域文本情感分类方法一定程度上提高了跨领域文本情感分类的精度. 展开更多
关键词 情感分类 跨领域 合成过抽样技术 分组提升 集成分类器
下载PDF
一种改进的SMOTE算法 被引量:3
10
作者 魏浩 李红 刘小豫 《河南科学》 2018年第7期1009-1013,共5页
少数类样本合成过抽样技术(SMOTE)是一种过抽样数据预处理算法,是在两个少数类之间随机插入一个新的少数类样本.为了解决SMOTE算法生成少数样本随机性的局限性,在考虑多数类样本分布会对少数样本的生成产生影响的基础上,提出了改进的SM... 少数类样本合成过抽样技术(SMOTE)是一种过抽样数据预处理算法,是在两个少数类之间随机插入一个新的少数类样本.为了解决SMOTE算法生成少数样本随机性的局限性,在考虑多数类样本分布会对少数样本的生成产生影响的基础上,提出了改进的SMOTE算法.在WEKA平台上分别使用改进前后的SMOTE算法对选用的UCI数据集进行过抽样数据预处理,并使用朴素贝叶斯、决策树和K邻近分类器对过抽样后的数据集进行分类,选择几何均数(G-mean)和曲线下面积(AUC)两个评价指标,实验显示改进后的SMOTE算法预处理的数据集的分类效果更好,证明改进后的SMOTE算法生成的少数类样本更加合理. 展开更多
关键词 不平衡数据集 少数类样本合成过抽样技术 几何均数 曲线下面积
下载PDF
不均衡数据下基于阴性免疫的过抽样新算法 被引量:11
11
作者 陶新民 徐晶 +1 位作者 童智靖 刘玉 《控制与决策》 EI CSCD 北大核心 2010年第6期867-872,878,共7页
为提高不均衡数据集下算法分类性能,提出一种基于阴性免疫的过抽样算法.该算法利用阴性免疫实现少数类样本空间覆盖,以生成的检测器中心为人工生成的少数类样本.由于该算法利用的是多数类样本信息生成少数类样本,避免了人工少数类过抽... 为提高不均衡数据集下算法分类性能,提出一种基于阴性免疫的过抽样算法.该算法利用阴性免疫实现少数类样本空间覆盖,以生成的检测器中心为人工生成的少数类样本.由于该算法利用的是多数类样本信息生成少数类样本,避免了人工少数类过抽样技术(SMOTE)生成的人工样本缺乏空间代表性的不足.通过实验将此算法与SMOTE算法及其改进算法进行比较,结果表明,该算法不仅有效提高了少数类样本的分类性能,而且总体分类性能也有了显著提高. 展开更多
关键词 不均衡数据 阴性免疫 过抽样算法 人工少数类过抽样技术
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部