期刊文献+
共找到78篇文章
< 1 2 4 >
每页显示 20 50 100
Predictive modeling for postoperative delirium in elderly patients with abdominal malignancies using synthetic minority oversampling technique
1
作者 Wen-Jing Hu Gang Bai +6 位作者 Yan Wang Dong-Mei Hong Jin-Hua Jiang Jia-Xun Li Yin Hua Xin-Yu Wang Ying Chen 《World Journal of Gastrointestinal Oncology》 SCIE 2024年第4期1227-1235,共9页
BACKGROUND Postoperative delirium,particularly prevalent in elderly patients after abdominal cancer surgery,presents significant challenges in clinical management.AIM To develop a synthetic minority oversampling techn... BACKGROUND Postoperative delirium,particularly prevalent in elderly patients after abdominal cancer surgery,presents significant challenges in clinical management.AIM To develop a synthetic minority oversampling technique(SMOTE)-based model for predicting postoperative delirium in elderly abdominal cancer patients.METHODS In this retrospective cohort study,we analyzed data from 611 elderly patients who underwent abdominal malignant tumor surgery at our hospital between September 2020 and October 2022.The incidence of postoperative delirium was recorded for 7 d post-surgery.Patients were divided into delirium and non-delirium groups based on the occurrence of postoperative delirium or not.A multivariate logistic regression model was used to identify risk factors and develop a predictive model for postoperative delirium.The SMOTE technique was applied to enhance the model by oversampling the delirium cases.The model’s predictive accuracy was then validated.RESULTS In our study involving 611 elderly patients with abdominal malignant tumors,multivariate logistic regression analysis identified significant risk factors for postoperative delirium.These included the Charlson comorbidity index,American Society of Anesthesiologists classification,history of cerebrovascular disease,surgical duration,perioperative blood transfusion,and postoperative pain score.The incidence rate of postoperative delirium in our study was 22.91%.The original predictive model(P1)exhibited an area under the receiver operating characteristic curve of 0.862.In comparison,the SMOTE-based logistic early warning model(P2),which utilized the SMOTE oversampling algorithm,showed a slightly lower but comparable area under the curve of 0.856,suggesting no significant difference in performance between the two predictive approaches.CONCLUSION This study confirms that the SMOTE-enhanced predictive model for postoperative delirium in elderly abdominal tumor patients shows performance equivalent to that of traditional methods,effectively addressing data imbalance. 展开更多
关键词 Elderly patients Abdominal cancer Postoperative delirium synthetic minority oversampling technique Predictive modeling Surgical outcomes
下载PDF
Modelling Key Population Attrition in the HIV and AIDS Programme in Kenya Using Random Survival Forests with Synthetic Minority Oversampling Technique-Nominal Continuous
2
作者 Evan Kahacho Charity Wamwea +1 位作者 Bonface Malenje Gordon Aomo 《Journal of Data Analysis and Information Processing》 2023年第1期11-36,共26页
HIV and AIDS has continued to be a major public health concern, and hence one of the epidemics that the world resolved to end by 2030 as highlighted in sustainable development goals (SDGs). A colossal amount of effort... HIV and AIDS has continued to be a major public health concern, and hence one of the epidemics that the world resolved to end by 2030 as highlighted in sustainable development goals (SDGs). A colossal amount of effort has been taken to reduce new HIV infections, but there are still a significant number of new infections reported. HIV prevalence is more skewed towards the key population who include female sex workers (FSW), men who have sex with men (MSM), and people who inject drugs (PWID). The study design was retrospective and focused on key population enrolled in a comprehensive HIV and AIDS programme by the Kenya Red Cross Society from July 2019 to June 2021. Individuals who were either lost to follow up, defaulted (dropped out, transferred out, or relocated) or died were classified as attrition;while those who were active and alive by the end of the study were classified as retention. The study used density analysis to determine the spatial differences of key population attrition in the 19 targeted counties, and used Kilifi county as an example to map attrition cases in smaller administrative areas (sub-county level). The study used synthetic minority oversampling technique-nominal continuous (SMOTE-NC) to balance the datasets since the cases of attrition were much less than retention. The random survival forests model was then fitted to the balanced dataset. The model correctly identified attrition cases using the predicted ensemble mortality and their survival time using the estimated Kaplan-Meier survival function. The predictive performance of the model was strong and way better than random chance with concordance indices greater than 0.75. 展开更多
关键词 Random Survival Forests synthetic minority oversampling technique-Nominal Continuous (smote-NC) Key Population Female Sex Workers (FSW) Men Who Have Sex with Men (MSM) People Who Inject Drugs (PWID)
下载PDF
基于SMOTE-IKPCA-SeNet深度迁移学习的小批量生产质量预测研究
3
作者 杨剑锋 崔少红 +1 位作者 段家琦 王宁 《工业工程》 2024年第2期98-106,157,共10页
随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利... 随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利用深度迁移学习的方式将历史生产数据作为源域迁移至小样本目标产品数据进行质量预测。首先,通过合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)和改进的核主成分分析(improved kernel principal component analysis,IKPCA)算法筛选源域和目标域的可迁移特征,这不仅兼顾了特征重要性和可迁移性,还减少了“负迁移”,提高了模型泛化能力;然后,采用结合通道注意力机制的卷积神经网络SeNet构建基于深度迁移学习的质量预测模型。仿真结果表明,随着目标域样本的增加,所提方法的预测准确性明显优于广泛采用的支持向量机建模方法。同时,所提可迁移特征筛选方法显著提高了深度迁移学习的质量预测效果,为复杂的小批量生产过程质量保证提供了新方法。 展开更多
关键词 小批量生产质量预测 深度迁移学习 smote IKPCA SeNet
下载PDF
SMOTE类算法研究综述
4
作者 王晓霞 李雷孝 林浩 《计算机科学与探索》 CSCD 北大核心 2024年第5期1135-1159,共25页
合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细... 合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细阐述了SMOTE方法的基本原理,然后主要从数据级、算法级两个层面系统性地梳理分析SMOTE类算法,并介绍数据级和算法级混合改进的新思路。数据级改进是在预处理时通过不同操作删除或添加数据来平衡数据分布;算法级改进不会改变数据分布,主要通过修改或创建算法来加强对少数类样本的关注度。二者相比,数据级方法应用受限更少,算法级改进的算法鲁棒性普遍更高。为了更全面地提供SMOTE类算法的基础研究材料,最后列出常用数据集、评价指标,给出未来可能尝试进行的研究思路,以更好地应对不平衡数据问题。 展开更多
关键词 不平衡数据 合成少数类过采样技术(smote) 过采样 监督学习
下载PDF
基于SMOTE-UVE-SVM的小麦种子纯度高光谱图像检测
5
作者 朱潘雨 黄敏 赵鑫 《激光技术》 CAS CSCD 北大核心 2024年第2期281-287,共7页
为了解决基于高光谱成像技术的小麦种子纯度检测过程中样本不均衡及波段信息冗余导致纯度检测模型性能下降的问题,提出了一种融合合成少数类过采样技术(SMOTE)、非信息变量剔除(UVE)和支持向量机(SVM)的种子纯度高光谱检测模型。该模型... 为了解决基于高光谱成像技术的小麦种子纯度检测过程中样本不均衡及波段信息冗余导致纯度检测模型性能下降的问题,提出了一种融合合成少数类过采样技术(SMOTE)、非信息变量剔除(UVE)和支持向量机(SVM)的种子纯度高光谱检测模型。该模型利用SMOTE算法对小麦种子少数类(杂质)样本进行扩充,改善样本的不均衡性;同时利用UVE对高维的高光谱特征进行选择,并构建SVM模型作为分类器,以进一步提高分类的性能。结果表明,5类小麦种子的平均准确率、精确率和负样本检出率分别达到95.98%、94.94%和89.32%,较传统方法分别提高了3.89%、7.18%和12.42%。所提出的方法在基于高光谱成像技术的小麦种子纯度检测中具有较好的应用前景。 展开更多
关键词 光谱学 高光谱成像技术 合成少数类过采样技术 非信息变量剔除 种子纯度
下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
6
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数类过采样(smote)算法 岩爆指标 托梅克联系(Tomek Link)
下载PDF
一种自适应核SMOTE-SVM算法用于不平衡数据分类 被引量:6
7
作者 吴海燕 陈晓磊 范国轩 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期97-104,共8页
面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后... 面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后基于核距离对少数类样本集的支持向量(SV+)计算其近邻,再根据近邻样本类别分布自适应地选择内插或外推两种方式合成新样本。由于核空间中映射函数无法具体得知,新样本无法用显式表示,因此将生成样本与原始样本一起形成增广Gram矩阵,最终利用SVM实现分类。该算法中样本生成、近邻计算以及SVM分类均统一在同一核空间中,提高了新样本的可信性;同时自适应插值方式改善了传统人工合成过采样技术(SMOTE)线性生成算法不适用于非线性分类的问题,提高了新样本的多样性。在多个数据集上的实验结果表明,所提算法可以改善不平衡数据的分类准确率,具有更好的稳健性。 展开更多
关键词 不平衡数据分类 人工合成过采样技术(smote) 核空间 支持向量机
下载PDF
基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用
8
作者 何亮 徐海燕 陈璐 《数据采集与处理》 CSCD 北大核心 2023年第6期1482-1494,共13页
为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使... 为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使用无参数的自然近邻设定采样样本选取的逻辑规则,规避了r近邻划分样本时产生的不稳定性;其次基于自然近邻稳定结构规定安全范围设定的逻辑规则,避免合成样本成为噪声样本;然后使用双聚类挖掘局部规则,以合成样本继承局部规则的方式改进SMOTE合成公式;最后,在Prosper小额贷款平台的非均衡信贷数据集上将NaN?Bicluster SMOTE与若干采样方法和机器学习模型进行对比分析,并进一步使用统计检验方法验证其性能的优越性。 展开更多
关键词 小额贷款 信用风险 合成少数过采样技术 自然近邻 双聚类
下载PDF
一种基于随机森林的OFDM系统自适应算法
9
作者 王波 刘潇然 +2 位作者 熊俊 辜方林 张晓瀛 《信号处理》 CSCD 北大核心 2024年第6期1007-1018,共12页
针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间... 针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间隔和循环前缀长度取值,本文提出了基于随机森林的OFDM系统自适应算法。随机森林算法基于集成的思想,能够有效处理高维度数据,并且具有高效率、高准确率和强泛化能力等优势,可以在复杂的数据场景下进行有效的分类。通过提取通信过程中信噪比、用户移动速度、最大多普勒频率和均方根时延扩展等信道特征与OFDM系统的子载波间隔和循环前缀长度组成训练样本,利用随机森林算法创建了OFDM系统参数多分类模型。所提模型可以根据输入的信道特征,实现OFDM系统子载波间隔和循环前缀长度的自适应分配。同时,针对训练样本主要集中在少数几个系统参数类别的情况,利用合成少数类过采样技术对较少样本数的类别进行扩充,满足了随机森林算法对训练样本类别平衡化的需求,进一步提高了算法的分类准确率。相比传统的自适应算法,所提算法具有更高的分类准确率和模型泛化能力。分析和仿真结果表明,与子载波间隔和循环前缀长度固定的OFDM系统相比,本文所提出的自适应算法能够准确选择出最优的系统参数,可以有效地减轻信道中符号间干扰和子载波间干扰的影响,从而在整个信噪比范围上提供最大的平均频谱效率。基于随机森林的OFDM系统自适应算法能够动态地分配子载波间隔和循环前缀长度,增强OFDM系统的通信质量和抗干扰能力,实现在不同信道环境下的可靠传输。 展开更多
关键词 正交频分复用 合成少数类过采样技术 随机森林 自适应算法
下载PDF
基于自适应GA-RF的用户流失预测研究
10
作者 赵峰 徐丹华 《信息通信技术》 2024年第1期58-63,72,共7页
针对电信用户流失问题,文章提出一种自适应遗传算法优化随机森林的预测模型。首先对Kaggle平台提供的电信数据进行数据清洗、特征提取及无量纲化处理,然后运用SMOTE过采样以解决数据不平衡问题,对决策树、随机森林等模型预测的召回率、F... 针对电信用户流失问题,文章提出一种自适应遗传算法优化随机森林的预测模型。首先对Kaggle平台提供的电信数据进行数据清洗、特征提取及无量纲化处理,然后运用SMOTE过采样以解决数据不平衡问题,对决策树、随机森林等模型预测的召回率、F1和AUC值进行对比。最后提出一种自适应遗传算法优化随机森林的电信用户流失预测模型。结果表明,自适应遗传算法优化的随机森林模型的预测性能优于单一分类模型。 展开更多
关键词 用户流失 自适应 遗传算法 随机森林 smote
下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:23
11
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成过采样技术(smote) synthetic minority OVER-SAMPLING technique (smote)
下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
12
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 分类 支持度 轮盘赌选择 合成少数过采样技术(smote)
下载PDF
考虑不同天气类型样本的光伏功率日内预测模型
13
作者 付雪姣 吕可欣 +4 位作者 吴林林 刘辉 张扬帆 李奕霖 叶林 《分布式能源》 2024年第2期39-47,共9页
太阳能具有清洁、安全、可再生的优点,光伏发电可减轻资源消耗,助力可持续发展,然而光伏功率易受天气影响,针对不同天气类型下光伏功率的预测也是一个研究难点。该研究着手于在不同天气类型下应用人工少数类过采样法(synthetic minority... 太阳能具有清洁、安全、可再生的优点,光伏发电可减轻资源消耗,助力可持续发展,然而光伏功率易受天气影响,针对不同天气类型下光伏功率的预测也是一个研究难点。该研究着手于在不同天气类型下应用人工少数类过采样法(synthetic minority over-sampling technique,SMOTE)和机器学习进行光伏功率预测。首先,通过皮尔逊相关系数法选择出对光伏功率影响最大的气象因子;然后,根据重要程度较大的气象因子计算日照时数,通过给日照时数设定阈值进行划分,将天气分类为晴天、多云或阴天、覆雪,再通过SMOTE技术对各种天气类型下的样本进行扩充;最后,通过多种机器学习算法分别针对不同天气场景以及数据扩充前后构建光伏功率预测模型。通过案例分析可知,所提算法能对不同天气类型进行划分,并为不同天气类型下光伏功率预测存在的样本不平衡问题提供了一种解决方案,提升了不同天气场景下光伏功率的预测精度。 展开更多
关键词 光伏发电 功率预测 机器学习 人工少数类过采样法(smote) 天气类型
下载PDF
面向不均衡数据集的ISMOTE算法 被引量:12
14
作者 许丹丹 王勇 蔡立军 《计算机应用》 CSCD 北大核心 2011年第9期2399-2401,共3页
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能... 为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。 展开更多
关键词 不均衡数据集 分类 虚拟实例 少数类过抽样算法
下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:8
15
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(smote) 构造性覆盖算法(CCA)
下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:5
16
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(smote)算法 条件生成对抗网络 XGBoost模型 分类问题
下载PDF
基于SMOTE和深度信念网络的异常检测 被引量:20
17
作者 沈学利 覃淑娟 《计算机应用》 CSCD 北大核心 2018年第7期1941-1945,共5页
针对现有海量非平衡数据集中少数类别样本入侵检测率低的问题,提出了一种基于合成少数类过采样技术(SMOTE)和深度信念网络(DBN)的异常检测(SMOTE-DBN)方法。首先,用SMOTE技术增加了少数类别样本的样本数;然后在预处理后的较平衡数据集上... 针对现有海量非平衡数据集中少数类别样本入侵检测率低的问题,提出了一种基于合成少数类过采样技术(SMOTE)和深度信念网络(DBN)的异常检测(SMOTE-DBN)方法。首先,用SMOTE技术增加了少数类别样本的样本数;然后在预处理后的较平衡数据集上,用非监督的受限玻尔兹曼机(RBM)对预处理后的高维数据进行特征降维;其次,用反向传播(BP)算法微调模型参数,获得预处理后数据的较优低维表示;最后通过softmax分类器对较优低维数据进行分类。KDD1999数据集仿真实验表明,SMOTE优化处理能够提高模型对少数类别样本的检测率,在相同数据集上,SMOTE-DBN方法与DBN方法、支持向量机(SVM)方法相比,检测率分别提高了3.31个百分点和7.34个百分点,误报率分别降低了1.11个百分点和2.67个百分点。 展开更多
关键词 合成少数类过采样技术 深度信念网络 受限玻尔兹曼机 逻辑回归 入侵检测
下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法
18
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本类分布不平衡 改进合成少数过采样技术 深度残差网络
下载PDF
基于SMOTE-LR的大学生学术失信预测研究 被引量:1
19
作者 李志强 余炫朴 《东北师大学报(哲学社会科学版)》 CSSCI 北大核心 2021年第4期76-83,共8页
在我国社会、经济与科学技术不断发展的背景下,信用成为生活中不可或缺的重要元素,但学术造假、信贷违约等大学生信用问题也逐渐显露出来。本文对我国大学生学术信用及相关内容的研究现状进行了梳理,总结了现阶段其存在的问题。基于合... 在我国社会、经济与科学技术不断发展的背景下,信用成为生活中不可或缺的重要元素,但学术造假、信贷违约等大学生信用问题也逐渐显露出来。本文对我国大学生学术信用及相关内容的研究现状进行了梳理,总结了现阶段其存在的问题。基于合成少数类过采样技术(SMOTE)与线性逻辑回归(LR),设计了SMOTE-LR学术失信预测模型,通过实证分析,该预测模型结果具有一定的准确性。大学生学术失信预测模型在人才选拔、学历考试及个人征信等场景应用中起着重要的作用。 展开更多
关键词 学术信用 失信预测 合成少数类过采样技术 线性逻辑回归
下载PDF
特征提取及数据扩充的GA-LightGBM半导体质量检测方法
20
作者 程云飞 周丽芳 +2 位作者 赵波 谭佳伟 王淑影 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期351-356,共6页
半导体质量检测数据具有的“相关性、冗余性、不平衡性”等特点,导致传统的分类算法效率较低,为此,提出一种基于特征提取及数据扩充的GA-LightGBM(genetic algorithm-light gradient boosting machine)质量检测方法。通过结合主成分分析... 半导体质量检测数据具有的“相关性、冗余性、不平衡性”等特点,导致传统的分类算法效率较低,为此,提出一种基于特征提取及数据扩充的GA-LightGBM(genetic algorithm-light gradient boosting machine)质量检测方法。通过结合主成分分析(principal component analysis,PCA)、合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)、遗传算法和LightGBM这4种方法,实现对产品质量的有效识别。实验结果表明,相较于传统分类算法,提出的方法可以有效提升质量检测的效率。 展开更多
关键词 质量检测 主成分分析 合成少数类过采样技术 GA-LightGBM
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部