期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
Modelling Key Population Attrition in the HIV and AIDS Programme in Kenya Using Random Survival Forests with Synthetic Minority Oversampling Technique-Nominal Continuous
1
作者 Evan Kahacho Charity Wamwea +1 位作者 Bonface Malenje Gordon Aomo 《Journal of Data Analysis and Information Processing》 2023年第1期11-36,共26页
HIV and AIDS has continued to be a major public health concern, and hence one of the epidemics that the world resolved to end by 2030 as highlighted in sustainable development goals (SDGs). A colossal amount of effort... HIV and AIDS has continued to be a major public health concern, and hence one of the epidemics that the world resolved to end by 2030 as highlighted in sustainable development goals (SDGs). A colossal amount of effort has been taken to reduce new HIV infections, but there are still a significant number of new infections reported. HIV prevalence is more skewed towards the key population who include female sex workers (FSW), men who have sex with men (MSM), and people who inject drugs (PWID). The study design was retrospective and focused on key population enrolled in a comprehensive HIV and AIDS programme by the Kenya Red Cross Society from July 2019 to June 2021. Individuals who were either lost to follow up, defaulted (dropped out, transferred out, or relocated) or died were classified as attrition;while those who were active and alive by the end of the study were classified as retention. The study used density analysis to determine the spatial differences of key population attrition in the 19 targeted counties, and used Kilifi county as an example to map attrition cases in smaller administrative areas (sub-county level). The study used synthetic minority oversampling technique-nominal continuous (SMOTE-NC) to balance the datasets since the cases of attrition were much less than retention. The random survival forests model was then fitted to the balanced dataset. The model correctly identified attrition cases using the predicted ensemble mortality and their survival time using the estimated Kaplan-Meier survival function. The predictive performance of the model was strong and way better than random chance with concordance indices greater than 0.75. 展开更多
关键词 Random Survival Forests synthetic minority Oversampling technique-Nominal Continuous (smote-NC) Key Population Female Sex Workers (FSW) Men Who Have Sex with Men (MSM) People Who Inject Drugs (PWID)
下载PDF
基于SMOTE-IKPCA-SeNet深度迁移学习的小批量生产质量预测研究
2
作者 杨剑锋 崔少红 +1 位作者 段家琦 王宁 《工业工程》 2024年第2期98-106,157,共10页
随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利... 随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利用深度迁移学习的方式将历史生产数据作为源域迁移至小样本目标产品数据进行质量预测。首先,通过合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)和改进的核主成分分析(improved kernel principal component analysis,IKPCA)算法筛选源域和目标域的可迁移特征,这不仅兼顾了特征重要性和可迁移性,还减少了“负迁移”,提高了模型泛化能力;然后,采用结合通道注意力机制的卷积神经网络SeNet构建基于深度迁移学习的质量预测模型。仿真结果表明,随着目标域样本的增加,所提方法的预测准确性明显优于广泛采用的支持向量机建模方法。同时,所提可迁移特征筛选方法显著提高了深度迁移学习的质量预测效果,为复杂的小批量生产过程质量保证提供了新方法。 展开更多
关键词 小批量生产质量预测 深度迁移学习 smote IKPCA SeNet
下载PDF
SMOTE类算法研究综述
3
作者 王晓霞 李雷孝 林浩 《计算机科学与探索》 CSCD 北大核心 2024年第5期1135-1159,共25页
合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细... 合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细阐述了SMOTE方法的基本原理,然后主要从数据级、算法级两个层面系统性地梳理分析SMOTE类算法,并介绍数据级和算法级混合改进的新思路。数据级改进是在预处理时通过不同操作删除或添加数据来平衡数据分布;算法级改进不会改变数据分布,主要通过修改或创建算法来加强对少数类样本的关注度。二者相比,数据级方法应用受限更少,算法级改进的算法鲁棒性普遍更高。为了更全面地提供SMOTE类算法的基础研究材料,最后列出常用数据集、评价指标,给出未来可能尝试进行的研究思路,以更好地应对不平衡数据问题。 展开更多
关键词 不平衡数据 合成少数类过采样技术(smote) 过采样 监督学习
下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
4
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数类过采样(smote)算法 岩爆指标 托梅克联系(Tomek Link)
下载PDF
一种自适应核SMOTE-SVM算法用于不平衡数据分类 被引量:6
5
作者 吴海燕 陈晓磊 范国轩 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期97-104,共8页
面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后... 面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后基于核距离对少数类样本集的支持向量(SV+)计算其近邻,再根据近邻样本类别分布自适应地选择内插或外推两种方式合成新样本。由于核空间中映射函数无法具体得知,新样本无法用显式表示,因此将生成样本与原始样本一起形成增广Gram矩阵,最终利用SVM实现分类。该算法中样本生成、近邻计算以及SVM分类均统一在同一核空间中,提高了新样本的可信性;同时自适应插值方式改善了传统人工合成过采样技术(SMOTE)线性生成算法不适用于非线性分类的问题,提高了新样本的多样性。在多个数据集上的实验结果表明,所提算法可以改善不平衡数据的分类准确率,具有更好的稳健性。 展开更多
关键词 不平衡数据分类 人工合成过采样技术(smote) 核空间 支持向量机
下载PDF
Real-time prediction of rock mass classification based on TBM operation big data and stacking technique of ensemble learning 被引量:14
6
作者 Shaokang Hou Yaoru Liu Qiang Yang 《Journal of Rock Mechanics and Geotechnical Engineering》 SCIE CSCD 2022年第1期123-143,共21页
Real-time prediction of the rock mass class in front of the tunnel face is essential for the adaptive adjustment of tunnel boring machines(TBMs).During the TBM tunnelling process,a large number of operation data are g... Real-time prediction of the rock mass class in front of the tunnel face is essential for the adaptive adjustment of tunnel boring machines(TBMs).During the TBM tunnelling process,a large number of operation data are generated,reflecting the interaction between the TBM system and surrounding rock,and these data can be used to evaluate the rock mass quality.This study proposed a stacking ensemble classifier for the real-time prediction of the rock mass classification using TBM operation data.Based on the Songhua River water conveyance project,a total of 7538 TBM tunnelling cycles and the corresponding rock mass classes are obtained after data preprocessing.Then,through the tree-based feature selection method,10 key TBM operation parameters are selected,and the mean values of the 10 selected features in the stable phase after removing outliers are calculated as the inputs of classifiers.The preprocessed data are randomly divided into the training set(90%)and test set(10%)using simple random sampling.Besides stacking ensemble classifier,seven individual classifiers are established as the comparison.These classifiers include support vector machine(SVM),k-nearest neighbors(KNN),random forest(RF),gradient boosting decision tree(GBDT),decision tree(DT),logistic regression(LR)and multilayer perceptron(MLP),where the hyper-parameters of each classifier are optimised using the grid search method.The prediction results show that the stacking ensemble classifier has a better performance than individual classifiers,and it shows a more powerful learning and generalisation ability for small and imbalanced samples.Additionally,a relative balance training set is obtained by the synthetic minority oversampling technique(SMOTE),and the influence of sample imbalance on the prediction performance is discussed. 展开更多
关键词 Tunnel boring machine(TBM)operation data Rock mass classification Stacking ensemble learning Sample imbalance synthetic minority oversampling technique(smote)
下载PDF
Over-sampling algorithm for imbalanced data classification 被引量:6
7
作者 XU Xiaolong CHEN Wen SUN Yanfei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第6期1182-1191,共10页
For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic... For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic minority over-sampling technique(SMOTE) is specifically designed for learning from imbalanced datasets, generating synthetic minority class examples by interpolating between minority class examples nearby. However, the SMOTE encounters the overgeneralization problem. The densitybased spatial clustering of applications with noise(DBSCAN) is not rigorous when dealing with the samples near the borderline.We optimize the DBSCAN algorithm for this problem to make clustering more reasonable. This paper integrates the optimized DBSCAN and SMOTE, and proposes a density-based synthetic minority over-sampling technique(DSMOTE). First, the optimized DBSCAN is used to divide the samples of the minority class into three groups, including core samples, borderline samples and noise samples, and then the noise samples of minority class is removed to synthesize more effective samples. In order to make full use of the information of core samples and borderline samples,different strategies are used to over-sample core samples and borderline samples. Experiments show that DSMOTE can achieve better results compared with SMOTE and Borderline-SMOTE in terms of precision, recall and F-value. 展开更多
关键词 imbalanced data density-based spatial clustering of applications with noise(DBSCAN) synthetic minority over sampling technique(smote) over-sampling.
下载PDF
基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用
8
作者 何亮 徐海燕 陈璐 《数据采集与处理》 CSCD 北大核心 2023年第6期1482-1494,共13页
为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使... 为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使用无参数的自然近邻设定采样样本选取的逻辑规则,规避了r近邻划分样本时产生的不稳定性;其次基于自然近邻稳定结构规定安全范围设定的逻辑规则,避免合成样本成为噪声样本;然后使用双聚类挖掘局部规则,以合成样本继承局部规则的方式改进SMOTE合成公式;最后,在Prosper小额贷款平台的非均衡信贷数据集上将NaN?Bicluster SMOTE与若干采样方法和机器学习模型进行对比分析,并进一步使用统计检验方法验证其性能的优越性。 展开更多
关键词 小额贷款 信用风险 合成少数过采样技术 自然近邻 双聚类
下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:23
9
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成过采样技术(smote) synthetic minority over-sampling technique (smote)
下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
10
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 分类 支持度 轮盘赌选择 合成少数过采样技术(smote)
下载PDF
考虑不同天气类型样本的光伏功率日内预测模型
11
作者 付雪姣 吕可欣 +4 位作者 吴林林 刘辉 张扬帆 李奕霖 叶林 《分布式能源》 2024年第2期39-47,共9页
太阳能具有清洁、安全、可再生的优点,光伏发电可减轻资源消耗,助力可持续发展,然而光伏功率易受天气影响,针对不同天气类型下光伏功率的预测也是一个研究难点。该研究着手于在不同天气类型下应用人工少数类过采样法(synthetic minority... 太阳能具有清洁、安全、可再生的优点,光伏发电可减轻资源消耗,助力可持续发展,然而光伏功率易受天气影响,针对不同天气类型下光伏功率的预测也是一个研究难点。该研究着手于在不同天气类型下应用人工少数类过采样法(synthetic minority over-sampling technique,SMOTE)和机器学习进行光伏功率预测。首先,通过皮尔逊相关系数法选择出对光伏功率影响最大的气象因子;然后,根据重要程度较大的气象因子计算日照时数,通过给日照时数设定阈值进行划分,将天气分类为晴天、多云或阴天、覆雪,再通过SMOTE技术对各种天气类型下的样本进行扩充;最后,通过多种机器学习算法分别针对不同天气场景以及数据扩充前后构建光伏功率预测模型。通过案例分析可知,所提算法能对不同天气类型进行划分,并为不同天气类型下光伏功率预测存在的样本不平衡问题提供了一种解决方案,提升了不同天气场景下光伏功率的预测精度。 展开更多
关键词 光伏发电 功率预测 机器学习 人工少数类过采样法(smote) 天气类型
下载PDF
面向不均衡数据集的ISMOTE算法 被引量:12
12
作者 许丹丹 王勇 蔡立军 《计算机应用》 CSCD 北大核心 2011年第9期2399-2401,共3页
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能... 为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。 展开更多
关键词 不均衡数据集 分类 虚拟实例 少数类过抽样算法
下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:8
13
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(smote) 构造性覆盖算法(CCA)
下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:5
14
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(smote)算法 条件生成对抗网络 XGBoost模型 分类问题
下载PDF
基于SMOTE和深度信念网络的异常检测 被引量:20
15
作者 沈学利 覃淑娟 《计算机应用》 CSCD 北大核心 2018年第7期1941-1945,共5页
针对现有海量非平衡数据集中少数类别样本入侵检测率低的问题,提出了一种基于合成少数类过采样技术(SMOTE)和深度信念网络(DBN)的异常检测(SMOTE-DBN)方法。首先,用SMOTE技术增加了少数类别样本的样本数;然后在预处理后的较平衡数据集上... 针对现有海量非平衡数据集中少数类别样本入侵检测率低的问题,提出了一种基于合成少数类过采样技术(SMOTE)和深度信念网络(DBN)的异常检测(SMOTE-DBN)方法。首先,用SMOTE技术增加了少数类别样本的样本数;然后在预处理后的较平衡数据集上,用非监督的受限玻尔兹曼机(RBM)对预处理后的高维数据进行特征降维;其次,用反向传播(BP)算法微调模型参数,获得预处理后数据的较优低维表示;最后通过softmax分类器对较优低维数据进行分类。KDD1999数据集仿真实验表明,SMOTE优化处理能够提高模型对少数类别样本的检测率,在相同数据集上,SMOTE-DBN方法与DBN方法、支持向量机(SVM)方法相比,检测率分别提高了3.31个百分点和7.34个百分点,误报率分别降低了1.11个百分点和2.67个百分点。 展开更多
关键词 合成少数类过采样技术 深度信念网络 受限玻尔兹曼机 逻辑回归 入侵检测
下载PDF
改进SMOTE的不平衡数据集成分类算法 被引量:32
16
作者 王忠震 黄勃 +2 位作者 方志军 高永彬 张娟 《计算机应用》 CSCD 北大核心 2019年第9期2591-2596,共6页
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目... 针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。 展开更多
关键词 不平衡数据分类 合成少数类过采样技术 K近邻 过采样 聚类 ADABOOST算法
下载PDF
基于SMOTE算法的船舶结构可靠性优化设计 被引量:17
17
作者 龙周 陈松坤 王德禹 《上海交通大学学报》 EI CAS CSCD 北大核心 2019年第1期26-34,共9页
针对常规船舶结构可靠性优化设计由高度非线性带来的计算效率低、收敛困难的问题,提出了基于SMOTE(Synthetic Minority Oversampling Technique)算法的船舶结构可靠性优化设计方法.利用SMOTE算法建立了改进的BP (Back Propagation)神经... 针对常规船舶结构可靠性优化设计由高度非线性带来的计算效率低、收敛困难的问题,提出了基于SMOTE(Synthetic Minority Oversampling Technique)算法的船舶结构可靠性优化设计方法.利用SMOTE算法建立了改进的BP (Back Propagation)神经网络模型,以较少的样本点完成了极限状态函数的高度近似,克服了以往代理模型不能同时满足精度和效率要求的缺点,并通过数学算例验证了使用SMOTE算法建立BP神经网络模型的可行性和有效性.将改进的BP神经网络模型和模拟退火法嵌入单循环优化策略,并将其用于船舶舱段的可靠性优化设计,验证了所提出的可靠性优化设计方法的求解效率和精度,为大型工程结构的可靠性优化设计提供了思路. 展开更多
关键词 可靠性优化设计 极限状态函数 单循环优化策略 smote算法
下载PDF
面向非平衡多分类问题的二次合成QSMOTE方法 被引量:2
18
作者 韩明鸣 郭虎升 王文剑 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期1-13,共13页
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善... 近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升. 展开更多
关键词 多类非平衡问题 过泛化 重叠 合成少数类上采样技术(smote)
下载PDF
基于改进SMOTE的制造过程不平衡数据分类策略 被引量:1
19
作者 黎旭 陈家兑 +1 位作者 吴永明 宗文泽 《计算机工程与应用》 CSCD 北大核心 2022年第16期284-291,共8页
不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique... 不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique)和局部离群因子(local outlier factor,LOF)的过采样算法。首先对整个数据集进行K-means聚类,筛选出高可靠性样本进行改进SMOTE算法过采样,然后采用LOF算法删除误差大的人工合成样本。在4个UCI不平衡数据集上的实验结果表明,该方法对不平衡数据中少数类的分类能力更强,有效地克服了数据边缘化问题,将算法应用于磷酸生产中的不平衡数据,实现了该不平衡数据的准确分类。 展开更多
关键词 不平衡数据 过采样 局部离群因子 聚类 合成少数过采样技术(smote)
下载PDF
基于SMOTE算法和动态代理模型的船舶结构可靠性优化 被引量:10
20
作者 刘婧 王德禹 《中国舰船研究》 CSCD 北大核心 2020年第5期114-123,共10页
[目的]针对传统船舶结构可靠性优化设计中难以同时保证全局近似精度与计算效率的问题,提出一种基于少数类合成的过采样算法(SMOTE)和动态代理模型的可靠性优化策略。[方法]首先,通过最优拉丁超立方试验设计,在设计空间中选择初始样本点... [目的]针对传统船舶结构可靠性优化设计中难以同时保证全局近似精度与计算效率的问题,提出一种基于少数类合成的过采样算法(SMOTE)和动态代理模型的可靠性优化策略。[方法]首先,通过最优拉丁超立方试验设计,在设计空间中选择初始样本点,构造BP神经网络模型;然后,利用全局优化算法−模拟退火法(ASA)和可靠性优化设计的单循环法(SLA),找到当前全局最优解;最后,通过SMOTE算法增加最优解周围的样本点,更新代理模型以提高其在全局最优解附近的精度,直至优化迭代收敛。[结果]结果显示,SMOTE算法可以合成位于失效面附近的样本点,从而使BP神经网络模型更高效地拟合极限状态函数;SLA法将可靠性优化问题解耦成确定性优化问题,在保持计算精度的同时提高了计算效率。[结论]优化结果表明,采用所提方法在获得分析模型全局最优解的同时还能有效减少计算成本。 展开更多
关键词 船舶结构 可靠性优化 动态代理模型 少数类合成的过采样算法 BP神经网络模型 单循环法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部