期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于SMOTE-Tomek和CNN耦合的滑坡易发性评价模型及其应用——以三峡库区秭归—巴东段为例
1
作者 于宪煜 汤礼 《中国地质灾害与防治学报》 CSCD 2024年第3期141-151,共11页
中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问... 中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问题,使得训练集的建立在本质上是对非滑坡数据进行了欠采样,导致滑坡事件的重要信息特征丢失,进而影响到滑坡易发性评价的可靠性。文章以三峡库区巴东至秭归段为例,选取高程、坡度等14个评价因子作为滑坡易发性评价因子,划分原始训练集与验证集,采用SMOTE-Tomek方法(synthetic minority oversampling technique-Tomek Links,SMOTE-Tomek)处理原始训练数据集,构建输入训练集,输入并训练卷积神经网络模型(convolutional neural networks,CNN),得到SMOTE-Tomek-CNN耦合模型,再通过将SMOTE-Tomek方法与传统的欠采样方法(random undersampling,RUS),分别与CNN模型和支持向量机模型(support vector machine,SVM)交叉组合成SMOTE-Tomek-SVM、RUS-CNN和RUS-SVM三种耦合模型,并与SMOTE-CNN耦合模型进行对比。结果表明,在四种耦合模型中,SMOTE-CNN耦合模型的特定类别精度与ROC曲线下面积较高,结果分别为73.60%和0.965,表明该方法的预测能力优于传统的方法,能为研究区滑坡预测工作提供可靠参考。 展开更多
关键词 滑坡 滑坡易发性评价 smote-tomek 卷积神经网络 不平衡数据
下载PDF
A Real-time Lithological Identification Method based on SMOTE-Tomek and ICSA Optimization
2
作者 DENG Song PAN Haoyu +5 位作者 LI Chaowei YAN Xiaopeng WANG Jiangshuai SHI Lin PEI Chunyu CAI Meng 《Acta Geologica Sinica(English Edition)》 SCIE CAS CSCD 2024年第2期518-530,共13页
In petroleum engineering,real-time lithology identification is very important for reservoir evaluation,drilling decisions and petroleum geological exploration.A lithology identification method while drilling based on ... In petroleum engineering,real-time lithology identification is very important for reservoir evaluation,drilling decisions and petroleum geological exploration.A lithology identification method while drilling based on machine learning and mud logging data is studied in this paper.This method can effectively utilize downhole parameters collected in real-time during drilling,to identify lithology in real-time and provide a reference for optimization of drilling parameters.Given the imbalance of lithology samples,the synthetic minority over-sampling technique(SMOTE)and Tomek link were used to balance the sample number of five lithologies.Meanwhile,this paper introduces Tent map,random opposition-based learning and dynamic perceived probability to the original crow search algorithm(CSA),and establishes an improved crow search algorithm(ICSA).In this paper,ICSA is used to optimize the hyperparameter combination of random forest(RF),extremely random trees(ET),extreme gradient boosting(XGB),and light gradient boosting machine(LGBM)models.In addition,this study combines the recognition advantages of the four models.The accuracy of lithology identification by the weighted average probability model reaches 0.877.The study of this paper realizes high-precision real-time lithology identification method,which can provide lithology reference for the drilling process. 展开更多
关键词 mud logging data real-time lithological identification improved crow search algorithm petroleum geological exploration smote-tomek
下载PDF
基于SMOTE-Tomek与AdaBoost相结合的不平衡分类算法在金融信贷领域的研究
3
作者 马宁 刘硕 王乐秀 《计算机科学与应用》 2023年第5期1135-1147,共13页
在互联网金融快速发展的时代,信贷风险成为目前金融领域急需解决的问题之一。而信贷风险评估模型作为一种有效的工具,可以利用客户信息和客户活动数据识别潜在的风险,在金融机构中发挥着至关重要的作用。本文针对Kaggle数据集中因逾期... 在互联网金融快速发展的时代,信贷风险成为目前金融领域急需解决的问题之一。而信贷风险评估模型作为一种有效的工具,可以利用客户信息和客户活动数据识别潜在的风险,在金融机构中发挥着至关重要的作用。本文针对Kaggle数据集中因逾期还款用户实例远少于正常还款用户实例而造成的样本高度不平衡问题,以信贷风险预测为切入点,提出一种面向不平衡样本的风险识别方法。该方法选定以决策树为基分类器的AdaBoost分类器来训练SMOTE-Tomek平衡过后的数据集,它通过一种迭代机制让原本性能不强的分类器组合起来,形成一个强分类器。并选用精确率、召回率、ROC曲线及AUC值来评价所选定分类器的分类效果。实验结果表明,AdaBoost分类器相对于决策树、支持向量机和朴素贝叶斯分类器在信贷客户的风险评估中表现最优。 展开更多
关键词 信贷风险评估模型 样本不平衡 smote-tomek ADABOOST
下载PDF
集成学习在车险欺诈识别预测中的应用探讨
4
作者 吴舒婕 陈宇 《科技视界》 2024年第15期53-56,共4页
针对车险欺诈问题,文章提出了一种引入权重的Stacking融合模型对欺诈进行识别预测。对预处理后的车险欺诈数据集利用过滤法和嵌入法进行特征筛选,再采用SMOTE-Tomek Links相结合的采样方法平衡数据集。文章基于机器学习算法建立SVM、KN... 针对车险欺诈问题,文章提出了一种引入权重的Stacking融合模型对欺诈进行识别预测。对预处理后的车险欺诈数据集利用过滤法和嵌入法进行特征筛选,再采用SMOTE-Tomek Links相结合的采样方法平衡数据集。文章基于机器学习算法建立SVM、KNN、随机森林和XGBoost模型,并以此为基模型,建立传统的Stacking融合模型、引入不同指标作为权重的Stacking融合模型。结果表明:以F_(1)加权的Stacking融合模型的Pre值为91.7300%,与其他指标进行加权的Stacking模型预测效果相比,以F_(1)加权的Stacking融合模型对车险欺诈行为具有较好的识别预测能力。 展开更多
关键词 车险欺诈预测 smote-tomek Links采样 Stacking融合模型 加权Stacking融合模型
下载PDF
基于电机数据图像化的多时序变量间接卡车误吊起检测
5
作者 刘嘉杰 刘国平 胡文山 《计算机工程》 CAS CSCD 北大核心 2024年第10期370-380,共11页
自动化集装箱码头的装卸作业中经常发生集装箱与卡车同时被吊起的安全事故,导致人员伤亡及货品、车辆的损坏。为解决该问题,提出一种基于电机数据图像化处理的多时序变量间接卡车误吊起检测方法(MEIN)。该方法通过神经网络分析异步电机... 自动化集装箱码头的装卸作业中经常发生集装箱与卡车同时被吊起的安全事故,导致人员伤亡及货品、车辆的损坏。为解决该问题,提出一种基于电机数据图像化处理的多时序变量间接卡车误吊起检测方法(MEIN)。该方法通过神经网络分析异步电机在吊起集装箱和卡车的过程中产生的电流和电压异常,从而判断是否发生了误吊起事故。采集吊机的三相电流和电压数据,并基于物理公式进行特征工程计算出多个相关时序物理量,采用滑动窗口、SMOTE-Tomek综合采样的方式扩大样本总数并平衡类别数量,最后将多时序变量转换为图像的形式以EfficientNet进行分类。实验结果表明,该方法能在复杂的环境下(例如雨雾天气或轮胎被遮挡)保持稳定的检测性能,各测试地区的AUC均在0.997以上。相较于传统的基于激光雷达和计算机视觉的检测方法,MEIN方法具有成本低、精度高、计算量小并且抗环境干扰能力强等优点。该方法已在武汉、青岛、钦州、梅山等多地部署,为提高自动化集装箱码头的作业安全提供一种有效的解决方案。 展开更多
关键词 时间序列分类 卷积神经网络 合成少数类样本的过采样技术 Tomek Links欠采样技术 卡车误吊起检测
下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
6
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数类过采样(Smote)算法 岩爆指标 托梅克联系(Tomek Link)
下载PDF
基于聚类分析和XGBoost算法的换机预测模型 被引量:7
7
作者 卢光跃 吴洋 +1 位作者 吕少卿 闫真光 《西安邮电大学学报》 2019年第2期94-97,104,共5页
为了有效地向手机用户提供换机服务,建立一种换机预测模型。利用孤立森林算法,排查与换机预测无关的异常电信用户。将排查后的数据集通过K-Medoids聚类分析精细划分为3个用户簇,利用SMOTE和Tomek组合采样的方法,处理每个用户簇的不平衡... 为了有效地向手机用户提供换机服务,建立一种换机预测模型。利用孤立森林算法,排查与换机预测无关的异常电信用户。将排查后的数据集通过K-Medoids聚类分析精细划分为3个用户簇,利用SMOTE和Tomek组合采样的方法,处理每个用户簇的不平衡问题。最后将各个用户簇的数据通过XGBoost算法进行训练,并根据格式搜索法得出最优换机预测模型。实验结果表明,该换机预测模型的预测准确率高于其他预测模型,可较好地为电信用户提供换机服务。 展开更多
关键词 换机预测 孤立森林 K-mediods聚类 组合采样 XGBoost
下载PDF
基于深度森林和DNA甲基化的癌症分类研究 被引量:8
8
作者 刘超 吴申 +1 位作者 郑一超 侯维岩 《计算机工程与应用》 CSCD 北大核心 2020年第13期189-193,共5页
作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用... 作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用合成少数过采样(SMOTE)算法生成新的少数类样本,得到扩充后的数据集,通过Tomek Link算法剔除样本扩充过程中引入的噪声,得到相对平衡的数据集。在此基础上,利用深度森林(gcForest)算法的级联森林结构,每一层选取两种随机森林结构,以增强模型的泛化能力,得到最终的分类模型。对6种癌症的DNA甲基化数据实验表明混合采样的不平衡数据集成分类算法在保证多数类分类精度的前提下,有效地提高了对于少数类的灵敏度。 展开更多
关键词 DNA甲基化 癌症基因组图谱(TCGA) 合成少数类采样技术(SMOTE) Tomek Link算法 gcForest算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部