期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于SMOTE-Tomek和CNN耦合的滑坡易发性评价模型及其应用——以三峡库区秭归—巴东段为例
1
作者 于宪煜 汤礼 《中国地质灾害与防治学报》 CSCD 2024年第3期141-151,共11页
中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问... 中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问题,使得训练集的建立在本质上是对非滑坡数据进行了欠采样,导致滑坡事件的重要信息特征丢失,进而影响到滑坡易发性评价的可靠性。文章以三峡库区巴东至秭归段为例,选取高程、坡度等14个评价因子作为滑坡易发性评价因子,划分原始训练集与验证集,采用SMOTE-Tomek方法(synthetic minority oversampling technique-Tomek Links,SMOTE-Tomek)处理原始训练数据集,构建输入训练集,输入并训练卷积神经网络模型(convolutional neural networks,CNN),得到SMOTE-Tomek-CNN耦合模型,再通过将SMOTE-Tomek方法与传统的欠采样方法(random undersampling,RUS),分别与CNN模型和支持向量机模型(support vector machine,SVM)交叉组合成SMOTE-Tomek-SVM、RUS-CNN和RUS-SVM三种耦合模型,并与SMOTE-CNN耦合模型进行对比。结果表明,在四种耦合模型中,SMOTE-CNN耦合模型的特定类别精度与ROC曲线下面积较高,结果分别为73.60%和0.965,表明该方法的预测能力优于传统的方法,能为研究区滑坡预测工作提供可靠参考。 展开更多
关键词 滑坡 滑坡易发性评价 SMOTE-tomek 卷积神经网络 不平衡数据
下载PDF
基于Tomek链的边界少数类样本合成过采样方法 被引量:2
2
作者 陶佳晴 贺作伟 +2 位作者 冷强奎 翟军昌 孟祥福 《计算机应用研究》 CSCD 北大核心 2023年第2期463-469,共7页
在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,... 在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,计算得到类间距离互为最近的样本形成Tomek链;然后,根据Tomek链标识出位于类间边界处的少数类样本;接下来,利用合成少数类过采样技术(SMOTE)中的线性插值机制在边界样本及其少数类近邻间进行过采样,并最终实现数据集的平衡。实验对比了八种采样方法,结果表明所提方法在大部分数据集上均获得了更高的G-mean和F_(1)值。 展开更多
关键词 不平衡数据分类 合成过采样 边界样本 K近邻 tomek
下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
3
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数类过采样(Smote)算法 岩爆指标 托梅克联系(tomek Link)
下载PDF
融合过抽样和欠抽样的不平衡数据重抽样方法 被引量:14
4
作者 吴磊 房斌 +2 位作者 刁丽萍 陈静 谢娜娜 《计算机工程与应用》 CSCD 2013年第21期172-176,185,共6页
在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多... 在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多,只探讨利用重抽样方法对不平衡数据进行预处理来提高分类效果的方法。数据抽样算法有很多,但可以归为两大类:过抽样和欠抽样。针对二分类问题提出了四种融合过抽样和欠抽样算法的重抽样方法:BSM+Tomek、BSM+ENN、CBOS+Tomek和CBOS+ENN,并且与另外十种经典的重抽样算法做了大量的对比实验,实验证明提出的四种预处理算法在多种评价指标下提高了不平衡数据的分类效果。 展开更多
关键词 不平衡数据 重抽样 基于聚类的过抽样算法(CBOS) 基于边界值的虚拟少数类向上采样算法(BSM) 可选择最 近邻算法(ENN) tomek LINKS 预处理
下载PDF
基于TCGA数据库不平衡数据的改进分类方法 被引量:1
5
作者 侯维岩 刘超 +1 位作者 宋杨 孙燚 《安徽大学学报(自然科学版)》 CAS 北大核心 2020年第1期37-43,共7页
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数... 为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升. 展开更多
关键词 DNA甲基化 数据不平衡 TCGA tomek Link算法
下载PDF
一种面向不平衡分类的改进多决策树算法 被引量:6
6
作者 段化娟 尉永清 +1 位作者 刘培玉 周鹏 《广西师范大学学报(自然科学版)》 CAS 北大核心 2020年第2期72-80,共9页
在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute... 在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection)。其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树。通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性。 展开更多
关键词 不平衡数据 多决策树 tomek link欠采样 集成欠采样 属性选择
下载PDF
基于深度森林和DNA甲基化的癌症分类研究 被引量:8
7
作者 刘超 吴申 +1 位作者 郑一超 侯维岩 《计算机工程与应用》 CSCD 北大核心 2020年第13期189-193,共5页
作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用... 作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用合成少数过采样(SMOTE)算法生成新的少数类样本,得到扩充后的数据集,通过Tomek Link算法剔除样本扩充过程中引入的噪声,得到相对平衡的数据集。在此基础上,利用深度森林(gcForest)算法的级联森林结构,每一层选取两种随机森林结构,以增强模型的泛化能力,得到最终的分类模型。对6种癌症的DNA甲基化数据实验表明混合采样的不平衡数据集成分类算法在保证多数类分类精度的前提下,有效地提高了对于少数类的灵敏度。 展开更多
关键词 DNA甲基化 癌症基因组图谱(TCGA) 合成少数类采样技术(SMOTE) tomek Link算法 gcForest算法
下载PDF
基于CNN与BiGRU融合神经网络的入侵检测模型 被引量:13
8
作者 张安琳 张启坤 +3 位作者 黄道颖 刘江豪 李建春 陈孝文 《郑州大学学报(工学版)》 CAS 北大核心 2022年第3期37-43,共7页
针对深度学习入侵检测中出现的数据类不平衡及特征学习不全面等问题,提出了一种基于卷积神经网络(CNN)与双向门控循环单元(BiGRU)融合的神经网络入侵检测模型。通过SMOTE-Tomek算法完成对数据集的平衡处理,使用基于平均不纯度减少的特... 针对深度学习入侵检测中出现的数据类不平衡及特征学习不全面等问题,提出了一种基于卷积神经网络(CNN)与双向门控循环单元(BiGRU)融合的神经网络入侵检测模型。通过SMOTE-Tomek算法完成对数据集的平衡处理,使用基于平均不纯度减少的特征重要性算法实现特征选择,将CNN和BiGRU模型进行特征融合并引入注意力机制进行特征提取,从而提高模型的总体检测性能。使用入侵检测数据集CSE-CIC-IDS2018进行多分类实验,并与经典单一深度学习模型进行对比。实验结果表明:在数据集平衡方面,经SMOTE-Tomek算法处理,DoS attacks-Slow HTTP Test识别准确率从0提升至34.66%,SQL Injection识别准确率从0提升至100%,DDoS attack-LOIC-UDP、Brute Force-Web和Brute Force-XSS分别提升了5.22百分点、6.55百分点和35.71百分点,证明了平衡后的数据集较未经过处理的数据集在少数类的识别精度上提升明显。在模型的总体检测性能方面,在多分类实验对比中,所提模型总的分类精确率、召回率以及F1值均高于其他几种单一神经网络模型。其中各攻击流量类别的总评精确率比LSTM模型提升了2.10百分点;总评召回率比LSTM模型提升了1.50百分点;总评F1值比GRU模型提升了1.97百分点,从而证明了该模型具有更好的检测效果。 展开更多
关键词 入侵检测 卷积神经网络 双向门控循环单元 SMOTE算法 tomek Links算法
下载PDF
基于聚类分析和XGBoost算法的换机预测模型 被引量:7
9
作者 卢光跃 吴洋 +1 位作者 吕少卿 闫真光 《西安邮电大学学报》 2019年第2期94-97,104,共5页
为了有效地向手机用户提供换机服务,建立一种换机预测模型。利用孤立森林算法,排查与换机预测无关的异常电信用户。将排查后的数据集通过K-Medoids聚类分析精细划分为3个用户簇,利用SMOTE和Tomek组合采样的方法,处理每个用户簇的不平衡... 为了有效地向手机用户提供换机服务,建立一种换机预测模型。利用孤立森林算法,排查与换机预测无关的异常电信用户。将排查后的数据集通过K-Medoids聚类分析精细划分为3个用户簇,利用SMOTE和Tomek组合采样的方法,处理每个用户簇的不平衡问题。最后将各个用户簇的数据通过XGBoost算法进行训练,并根据格式搜索法得出最优换机预测模型。实验结果表明,该换机预测模型的预测准确率高于其他预测模型,可较好地为电信用户提供换机服务。 展开更多
关键词 换机预测 孤立森林 K-mediods聚类 组合采样 XGBoost
下载PDF
面向不平衡工业大数据集的SVM-tree分类算法研究
10
作者 林君萍 《长春师范大学学报》 2022年第2期40-46,共7页
针对不平衡率较高的工业大数据分类问题,提出一种基于SVM-tree的不平衡大数据分类算法研究。利用Tomek-links对清除系统噪声的影响,基于K-means算法对不平衡数据集做分簇处理,降低数据分类的复杂度,构建SVM-tree模型,将不平衡数据样本... 针对不平衡率较高的工业大数据分类问题,提出一种基于SVM-tree的不平衡大数据分类算法研究。利用Tomek-links对清除系统噪声的影响,基于K-means算法对不平衡数据集做分簇处理,降低数据分类的复杂度,构建SVM-tree模型,将不平衡数据样本映射到高维空间,根据数据集的规模和数据不平衡程度,调整SVM-tree的树形结构,在保证数据分类准确率的同时,也降低了算法模型的代价成本。实验分析结果表明,SVM-tree算法模型具有良好数据聚类性能,算法运行时间较短,且不平衡大数据分类准确率高。 展开更多
关键词 不平衡大数据 tomek-links K-MEANS算法 SVM-tree模型
下载PDF
BOS:一种用于不平衡数据学习的边界过采样方法 被引量:3
11
作者 祝团飞 孙婧 +1 位作者 李益洲 李梦龙 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第3期553-559,共7页
不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于... 不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于少数类的K连接分布实现自适应地少数边界合成过采样.实验结果表明,BOS相比已有的几种典型过采样方法提供更优的接受者操作特性曲线下方面积值(AUC),F值(F-Measure)和几何平均值(G-mean). 展开更多
关键词 不平衡问题 K广义的tomek连接 少数类边界合成过采样
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部