期刊文献+
共找到398篇文章
< 1 2 20 >
每页显示 20 50 100
基于SMOTE-IKPCA-SeNet深度迁移学习的小批量生产质量预测研究
1
作者 杨剑锋 崔少红 +1 位作者 段家琦 王宁 《工业工程》 2024年第2期98-106,157,共10页
随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利... 随着智能制造技术的发展和客户个性化需求的增加,多品种小批量生产方式逐渐成为制造业的主流。面向大批量生产、以统计过程控制为核心的质量管理方式并不适用于小批量生产。针对复杂生产过程存在参数多、非线性和交互作用的问题,提出利用深度迁移学习的方式将历史生产数据作为源域迁移至小样本目标产品数据进行质量预测。首先,通过合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)和改进的核主成分分析(improved kernel principal component analysis,IKPCA)算法筛选源域和目标域的可迁移特征,这不仅兼顾了特征重要性和可迁移性,还减少了“负迁移”,提高了模型泛化能力;然后,采用结合通道注意力机制的卷积神经网络SeNet构建基于深度迁移学习的质量预测模型。仿真结果表明,随着目标域样本的增加,所提方法的预测准确性明显优于广泛采用的支持向量机建模方法。同时,所提可迁移特征筛选方法显著提高了深度迁移学习的质量预测效果,为复杂的小批量生产过程质量保证提供了新方法。 展开更多
关键词 小批量生产质量预测 深度迁移学习 smote IKPCA SeNet
下载PDF
不平衡数据集的DC-SMOTE过采样方法
2
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据集 过采样 高斯核函数 局部引力 高不平衡数据 合成少数类过采样 不平衡度 分类
下载PDF
基于SMOTE和Inception-CNN的种植和组培金线莲鉴别
3
作者 蓝艳 王武 +3 位作者 许文 柴琴琴 李玉榕 张勋 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2024年第1期158-163,共6页
金线莲是一种珍贵中药材,其治疗、保健作用十分显著。金线莲培育方式主要有种植、组培等,不同培育方式的金线莲,在性状上仅表现出细微差异,但药用、市场价值差异显著,培育方式鉴别能有效保证药用疗效、维护良好市场秩序,然而由于不同品... 金线莲是一种珍贵中药材,其治疗、保健作用十分显著。金线莲培育方式主要有种植、组培等,不同培育方式的金线莲,在性状上仅表现出细微差异,但药用、市场价值差异显著,培育方式鉴别能有效保证药用疗效、维护良好市场秩序,然而由于不同品系、产地、培育时间等复合差异的影响,增加了培育方式鉴别难度与复杂度。提出一种基于改进1D-Inception-CNN模型的金线莲培育方式鉴别方法。采用近红外光谱仪采集种植、组培金线莲的光谱,首先使用合成少数类过采样技术(SMOTE)进行过采样以解决种植品、组培品样本比例不平衡问题,其次构建基于改进Inception结构的一维卷积神经网络对来自不同品系、产地、培育时间的金线莲进行种植品、组培品鉴别,最后采用贝叶斯优化方法对构建的卷积神经网络模型超参数进行优化;最终五折交叉验证平均鉴别准确率、精确率、召回率、综合评价指标高达97.95%、 96.16%、 100%、 98.02%。研究表明,实验提出的鉴别模型为快速鉴别金线莲种植品、组培品提供一种有效方法。 展开更多
关键词 金线莲 少数类过采样技术 Inception模块 一维卷积神经网络 贝叶斯优化
下载PDF
基于混合式SMOTE和RF模型的小额贷款公司客户信用风险研究
4
作者 严晴 徐海燕 《运筹与管理》 CSCD 北大核心 2024年第1期191-197,共7页
小额借贷中的个人信用风险问题持续制约着小额贷款行业的健康可持续发展。针对小贷公司在进行信用风险评估时对高违约风险客户识别准确率较低的难题,运用混合式SMOTE、RF算法来同时处理业务数据中高维、非均衡两个问题。本文借助江苏J... 小额借贷中的个人信用风险问题持续制约着小额贷款行业的健康可持续发展。针对小贷公司在进行信用风险评估时对高违约风险客户识别准确率较低的难题,运用混合式SMOTE、RF算法来同时处理业务数据中高维、非均衡两个问题。本文借助江苏J小贷公司的实例数据,依次构建随机森林(Random Forest, RF)模型、SMOTE-RF模型以及Borderline-SMOTE-RF模型并进行模型测试;再选用SVM算法进行对比实验以此衡量模型的信用风险评价精度。随后基于模型对于指标重要性的评分筛选出6项指标作为影响个人信用风险的关键指标。实验证明基于Borderline-SMOTE-RF算法对于小额贷款个人信用风险评价模型的分类性能最佳;在筛选关键指标时,为避免人工合成虚拟样本对指标重要性影响,需要结合三类模型评分进行综合选择。 展开更多
关键词 信用风险 随机森林(RF) smote 分类模型 指标体系
下载PDF
基于加权复杂度的SMOTE算法及其在软件缺陷预测中的应用
5
作者 魏威 江峰 《计算机与数字工程》 2024年第5期1418-1422,1427,共6页
近年来,SMOTE被广泛应用于软件缺陷预测中不平衡数据的处理。然而,现有的SMOTE算法普遍忽视了不同样本的复杂度存在很大差异这一问题。事实上,在缺陷预测时样本的复杂度与其是否具有缺陷之间存在着密切的联系,因此,在进行过采样时,有必... 近年来,SMOTE被广泛应用于软件缺陷预测中不平衡数据的处理。然而,现有的SMOTE算法普遍忽视了不同样本的复杂度存在很大差异这一问题。事实上,在缺陷预测时样本的复杂度与其是否具有缺陷之间存在着密切的联系,因此,在进行过采样时,有必要利用样本的复杂度来辅助新样本的合成,从而提高缺陷预测的性能。如何度量样本的复杂度非常重要,论文在计算样本复杂度时充分考虑到每一个条件属性的权重,从而得到一种加权复杂度的概念。基于加权复杂度,提出一种新的SMOTE算法——WCP-SMOTE,并将其应用于软件缺陷预测。WCP-SMOTE算法首先利用粗糙集中的粒度决策熵来计算决策表中每个条件属性的重要性和权重;其次,通过对样本在所有属性上的取值进行加权求和,从而得到该样本的加权复杂度;第三,根据加权复杂度对少数类样本进行升序排序,并从头到尾对相邻的两个少数类样本求平均来不断地合成新的样本,直到获得一个平衡的数据集。在多个缺陷预测数据集上的实验表明,利用WCP-SMOTE算法来处理不平衡数据能够获得更好的软件缺陷预测性能。 展开更多
关键词 软件缺陷预测 不平衡数据 粗糙集 粒度决策熵 加权复杂度 smote
下载PDF
一种分层SMOTE交叉验证法--应对数据泄露与样本不平衡
6
作者 李佳静 林少聪 郑寒秀 《闽江学院学报》 2024年第2期56-68,共13页
在处理不平衡数据时,即使训练集和测试集之间互不重叠,过采样技术仍然可能导致数据泄露。为了解决这一问题,提出了一种分层SMOTE交叉验证法(stratified SMOTE cross-validation),将训练集中各类别样本均匀地划分为K折,在每一折中,独立... 在处理不平衡数据时,即使训练集和测试集之间互不重叠,过采样技术仍然可能导致数据泄露。为了解决这一问题,提出了一种分层SMOTE交叉验证法(stratified SMOTE cross-validation),将训练集中各类别样本均匀地划分为K折,在每一折中,独立地使用SMOTE算法进行数据平衡,使得每一折内的少数类样本特征仅在该折内使用。这样做不仅确保了训练与验证数据之间的完全独立,规避了数据泄露的风险,而且分类器能够充分学习少数类样本的特征。此外,结合了集成学习和参数优化技术,以增强模型的分类和泛化能力。在UCI数据集上的实验结果显示,分层SMOTE交叉验证法在分类性能上并不逊色于现有方法,并且不同的K值导致的数据分布差异会对模型性能产生影响。该方法有效地提升了模型对不平衡数据的处理能力,为不平衡学习问题提供了一定的参考价值。 展开更多
关键词 数据不平衡 数据泄露 分层smote交叉验证
下载PDF
SMOTE类算法研究综述
7
作者 王晓霞 李雷孝 林浩 《计算机科学与探索》 CSCD 北大核心 2024年第5期1135-1159,共25页
合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细... 合成少数类过采样技术(SMOTE)因能有效处理少数类样本已成为处理不平衡数据的主流方法之一,而且许多SMOTE改进算法已被提出,但目前已有的调研极少考虑到流行的算法级改进方法。因此对现有SMOTE类算法进行更全面的分析与总结。首先详细阐述了SMOTE方法的基本原理,然后主要从数据级、算法级两个层面系统性地梳理分析SMOTE类算法,并介绍数据级和算法级混合改进的新思路。数据级改进是在预处理时通过不同操作删除或添加数据来平衡数据分布;算法级改进不会改变数据分布,主要通过修改或创建算法来加强对少数类样本的关注度。二者相比,数据级方法应用受限更少,算法级改进的算法鲁棒性普遍更高。为了更全面地提供SMOTE类算法的基础研究材料,最后列出常用数据集、评价指标,给出未来可能尝试进行的研究思路,以更好地应对不平衡数据问题。 展开更多
关键词 不平衡数据 合成少数类过采样技术(smote) 过采样 监督学习
下载PDF
基于SMOTE-Tomek和CNN耦合的滑坡易发性评价模型及其应用——以三峡库区秭归—巴东段为例
8
作者 于宪煜 汤礼 《中国地质灾害与防治学报》 CSCD 2024年第3期141-151,共11页
中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问... 中国是受滑坡灾害影响较为严重的国家,滑坡对受灾害影响地区的人民生命与财产造成了巨大的威胁。滑坡易发性评价作为对滑坡风险预测的重要工具,具有重要的防灾减灾的意义,但是传统的滑坡易发性评价中存在滑坡与非滑坡样本数据不平衡的问题,使得训练集的建立在本质上是对非滑坡数据进行了欠采样,导致滑坡事件的重要信息特征丢失,进而影响到滑坡易发性评价的可靠性。文章以三峡库区巴东至秭归段为例,选取高程、坡度等14个评价因子作为滑坡易发性评价因子,划分原始训练集与验证集,采用SMOTE-Tomek方法(synthetic minority oversampling technique-Tomek Links,SMOTE-Tomek)处理原始训练数据集,构建输入训练集,输入并训练卷积神经网络模型(convolutional neural networks,CNN),得到SMOTE-Tomek-CNN耦合模型,再通过将SMOTE-Tomek方法与传统的欠采样方法(random undersampling,RUS),分别与CNN模型和支持向量机模型(support vector machine,SVM)交叉组合成SMOTE-Tomek-SVM、RUS-CNN和RUS-SVM三种耦合模型,并与SMOTE-CNN耦合模型进行对比。结果表明,在四种耦合模型中,SMOTE-CNN耦合模型的特定类别精度与ROC曲线下面积较高,结果分别为73.60%和0.965,表明该方法的预测能力优于传统的方法,能为研究区滑坡预测工作提供可靠参考。 展开更多
关键词 滑坡 滑坡易发性评价 smote-Tomek 卷积神经网络 不平衡数据
下载PDF
基于改进SMOTE的不平衡数据分类算法
9
作者 马宝霖 胡茜 《长春工业大学学报》 CAS 2024年第3期259-264,共6页
SMOTE算法是处理不平衡数据的一种经典的过采样算法,文中对该算法进行改进。首先采用k-means算法对原始数据进行聚类,利用类判别函数对聚类样本进行筛选,筛选出“安全样本”。然后利用新的过采样率对“安全样本”进行线性插值,并且在插... SMOTE算法是处理不平衡数据的一种经典的过采样算法,文中对该算法进行改进。首先采用k-means算法对原始数据进行聚类,利用类判别函数对聚类样本进行筛选,筛选出“安全样本”。然后利用新的过采样率对“安全样本”进行线性插值,并且在插值过程中采用LMKNN方法。分别将该算法与SMOTE、KNSMOTE应用至实际数据中,使用SVM分类算法分类并进行性能对比。结果表明,对Abalone、Ecoli等不平衡数据集分类时,文中使用的算法分类效果最佳,验证了该算法的有效性。 展开更多
关键词 不平衡数据 smote算法 SVM算法
下载PDF
基于SMOTE-XGBoost算法的混凝土强度预测
10
作者 薛飞 《混凝土与水泥制品》 2024年第8期32-36,共5页
基于244组混凝土配合比构建了数据库,采用SMOTE-XGBoost算法对混凝土28 d抗压强度进行了预测。首先通过SMOTE算法对划分的训练集进行平衡处理;然后对比了SMOTE算法平衡前后XGBoost与常用混凝土强度预测模型的评估结果;最后进行了SMOTE-X... 基于244组混凝土配合比构建了数据库,采用SMOTE-XGBoost算法对混凝土28 d抗压强度进行了预测。首先通过SMOTE算法对划分的训练集进行平衡处理;然后对比了SMOTE算法平衡前后XGBoost与常用混凝土强度预测模型的评估结果;最后进行了SMOTE-XGBoost算法的实际工程验证。结果表明:SMOTE-XGBoost算法有效解决了数据不平衡问题,提高了预测模型的精度;相较于其他机器学习模型,SMOTE-XGBoost算法的预测结果较好;应用SMOTE-XGBoost算法对无岳高速WYTJ-07标段工程自制花岗岩混凝土的28 d抗压强度进行了预测,预测结果误差较小,该算法在工程混凝土强度预测方面具有广泛的应用前景。 展开更多
关键词 混凝土28 d抗压强度 机器学习 smote-XGBoost算法 预测
下载PDF
基于SMOTE的IFOX-1D-CNN变压器故障诊断模型
11
作者 王家军 景诗毅 +2 位作者 姚雨 陈焰 李波 《煤矿机械》 2024年第4期176-180,共5页
为了均衡油浸式变压器样本数据集,提高故障诊断精度,提出了基于合成少数类过采样技术(SMOTE)的改进狐狸(IFOX)算法优化一维卷积神经网络(1D-CNN)变压器故障诊断模型。首先,通过SMOTE均衡变压器样本数据集;其次,针对狐狸(FOX)算法种群初... 为了均衡油浸式变压器样本数据集,提高故障诊断精度,提出了基于合成少数类过采样技术(SMOTE)的改进狐狸(IFOX)算法优化一维卷积神经网络(1D-CNN)变压器故障诊断模型。首先,通过SMOTE均衡变压器样本数据集;其次,针对狐狸(FOX)算法种群初始化非均匀与寻优过程中易陷入局部最优解的缺陷,采用混沌映射、Levy飞行策略对其进行改进,并利用IFOX优化1D-CNN的学习率、卷积核大小、卷积核数量、全连接层神经元数量等超参数,建立IFOX-1D-CNN模型。实验结果表明,该模型在油浸式变压器故障诊断中具有较好的收敛性与较高的诊断精度。 展开更多
关键词 油浸式变压器 故障诊断 smote IFOX 1D-CNN
下载PDF
基于SMOTE_GA_XGBoost的葡萄酒质量预测
12
作者 丁海萌 郭小燕 《智能计算机与应用》 2024年第1期147-151,共5页
随着经济发展和消费升级,人们对高品质葡萄酒的需求不断增加,如何利用葡萄酒理化指标进行高效准确的质量评定显得尤为重要。本文基于UCI葡萄酒数据集,建立了SMOTE_GA_XGBoost模型来预测葡萄酒质量。结果表明,SMOTE_GA_XGBoost模型得出... 随着经济发展和消费升级,人们对高品质葡萄酒的需求不断增加,如何利用葡萄酒理化指标进行高效准确的质量评定显得尤为重要。本文基于UCI葡萄酒数据集,建立了SMOTE_GA_XGBoost模型来预测葡萄酒质量。结果表明,SMOTE_GA_XGBoost模型得出的级别判别准确率为89.36%,类别判别准确率为96.46%,均高于其他对比模型,具有更高的预测精度。 展开更多
关键词 葡萄酒质量预测 机器学习 smote GA_XGBoost
下载PDF
基于遗传算法和SMOTE的网络入侵检测模型优化研究
13
作者 戴周浩 《现代计算机》 2024年第7期24-30,共7页
针对网络入侵检测存在数据不平衡和特征冗余的问题,提出一种新的检测模型。该模型结合了遗传算法和SMOTE算法,通过对数据进行采样和特征选择,提高了网络入侵检测的准确性。首先,为了解决数据不平衡的状况,采用了SMOTE算法。这个算法通... 针对网络入侵检测存在数据不平衡和特征冗余的问题,提出一种新的检测模型。该模型结合了遗传算法和SMOTE算法,通过对数据进行采样和特征选择,提高了网络入侵检测的准确性。首先,为了解决数据不平衡的状况,采用了SMOTE算法。这个算法通过在入侵类样本中嵌入随机样本,有效地提高了入侵类样本的数量,使得数据达到平衡。其次,为了缓解特征冗余,引入了基于遗传算法和随机森林方法的包装式特征选择技术,选择有用特征,减少冗余信息,从而提升最终的入侵检测性能。最后,采用随机森林算法对经过上述处理的数据集进行分类,实现对网络入侵样本的有效检测。在NSL⁃KDD数据集上的实验表明,基于遗传算法和SMOTE的网络入侵检测模型从整体上提高了入侵检测的识别率。 展开更多
关键词 特征选择 smote过采样 随机森林 网络入侵检测 遗传算法
下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
14
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数类过采样(smote)算法 岩爆指标 托梅克联系(Tomek Link)
下载PDF
一种自适应核SMOTE-SVM算法用于不平衡数据分类 被引量:7
15
作者 吴海燕 陈晓磊 范国轩 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期97-104,共8页
面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后... 面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后基于核距离对少数类样本集的支持向量(SV+)计算其近邻,再根据近邻样本类别分布自适应地选择内插或外推两种方式合成新样本。由于核空间中映射函数无法具体得知,新样本无法用显式表示,因此将生成样本与原始样本一起形成增广Gram矩阵,最终利用SVM实现分类。该算法中样本生成、近邻计算以及SVM分类均统一在同一核空间中,提高了新样本的可信性;同时自适应插值方式改善了传统人工合成过采样技术(SMOTE)线性生成算法不适用于非线性分类的问题,提高了新样本的多样性。在多个数据集上的实验结果表明,所提算法可以改善不平衡数据的分类准确率,具有更好的稳健性。 展开更多
关键词 不平衡数据分类 人工合成过采样技术(smote) 核空间 支持向量机
下载PDF
基于LOF-SMOTE算法的地下水影响下矿山岩溶塌陷风险预测研究 被引量:1
16
作者 盛建龙 乔宇 +2 位作者 王平 俞栋华 张彦文 《有色金属科学与工程》 CAS 北大核心 2023年第3期372-380,399,共10页
矿山岩溶地表塌陷成因复杂,形式多样,为准确预测矿山岩溶塌陷,结合岩溶发育机理,本研究提出基于LOF和SMOTE算法的BP神经网络预测模型。首先通过LOF算法剔除因非自然原因而产生的异常数据,再通过SMOTE算法对剔除后的数据进行过采样,合成... 矿山岩溶地表塌陷成因复杂,形式多样,为准确预测矿山岩溶塌陷,结合岩溶发育机理,本研究提出基于LOF和SMOTE算法的BP神经网络预测模型。首先通过LOF算法剔除因非自然原因而产生的异常数据,再通过SMOTE算法对剔除后的数据进行过采样,合成新数据,以增加样本数目,最后采用BP神经网络模型对矿山岩溶塌陷进行预测。结果表明,实际工程数据经过预处理后的预测模型,与部分小样本预测模型相比,具有更高的预测精度,可为在其他工程中应用提供参考。 展开更多
关键词 岩溶塌陷 LOF算法 smote算法 神经网络 支持向量机
下载PDF
基于SMOTE-GWO-SVM模型的储罐底板腐蚀声发射检测智能评价 被引量:1
17
作者 李伟 薛永强 +2 位作者 贾鑫 刘祥彪 徐海丰 《无损检测》 CAS 2023年第1期47-48,49-53,共7页
将储罐宏观特征和声发射特征相结合,以“可能的腐蚀状况”为导向对储罐宏观数据进行处理。同时针对储罐声发射判级数据样本数量少、分布不平衡的情况,采用合成少数类过采样技术(SMOTE)和灰狼算法优化支持向量机(GWO-SVM)相结合的模型进... 将储罐宏观特征和声发射特征相结合,以“可能的腐蚀状况”为导向对储罐宏观数据进行处理。同时针对储罐声发射判级数据样本数量少、分布不平衡的情况,采用合成少数类过采样技术(SMOTE)和灰狼算法优化支持向量机(GWO-SVM)相结合的模型进行储罐的安全状态等级智能预测。结果表明该模型能有效提高小样本、不平衡数据识别的准确率和可靠性。 展开更多
关键词 声发射 储罐底板腐蚀 smote GWO-SVM 智能评价
下载PDF
基于K-medoids-NCA-SMOTE-BSVM融合模型的网络交易平台高质量数据资源识别研究
18
作者 倪渊 李思远 +2 位作者 徐磊 张健 房津玉 《运筹与管理》 CSCD 北大核心 2023年第11期87-93,I0040,I0041,共9页
随着数据服务形态不断衍生,数据资源作为一种新兴生产要素,其交易流通需求呈现爆发式增长。如何从海量数据中识别高质量数据资源,挖掘要素价值,成为数据交易平台获取竞争优势以及提升要素配置效率的关键。本文旨在发现平台交易情境下高... 随着数据服务形态不断衍生,数据资源作为一种新兴生产要素,其交易流通需求呈现爆发式增长。如何从海量数据中识别高质量数据资源,挖掘要素价值,成为数据交易平台获取竞争优势以及提升要素配置效率的关键。本文旨在发现平台交易情境下高质量数据形成的关键因素,提出从大规模、异质数据资源中高效识别高质量数据的方法。首先,基于高质量数据形成过程,构建“固有品质-商品表征”二维识别指标体系;然后,提出K-medoids-NCA-SMOTE-BSVM融合模型,对高、中、低三类不同质量数据进行分类预测;最后,收集真实数据交易平台的API交易数据,开展实证研究。结果显示:相比SVM,WOA-SVM,PSO-SVM,MLP和CNN等方法,K-medoids-NCA-SMOTE-BSVM模型在预测准确率和训练时间方面,均有良好的性能表现。本文提出的识别指标及分类模型,为平台经济下数据质量判断与预测提供了依据,对产品视角下数据质量标准制定以及数据交易定价优化具有一定实践意义。 展开更多
关键词 数据交易平台 高质量数据 K-medoids-NCA-smote-BSVM 多模型集成
下载PDF
HSMOTE-AdaBoost:改进混合边界重采样集成分类算法
19
作者 李静 刘姜 +1 位作者 倪枫 李笑语 《智能计算机与应用》 2023年第7期7-14,共8页
处理类不平衡问题时,已有的采样方法存在易受噪声影响和忽略边界样本的问题,尤其是忽略多数类样本的类内差异,位于边界的样本实例非常容易被错分,而这些样本对划分决策边界具有重要作用。将SMOTE过采样和RUS随机欠采样方法结合并进行改... 处理类不平衡问题时,已有的采样方法存在易受噪声影响和忽略边界样本的问题,尤其是忽略多数类样本的类内差异,位于边界的样本实例非常容易被错分,而这些样本对划分决策边界具有重要作用。将SMOTE过采样和RUS随机欠采样方法结合并进行改进,提出混合边界重采样算法(HSMOTE-AdaBoost)。HSMOTE-AdaBoost算法首先对少数类运用SMOTE过采样,提高数据的平衡度;再使用K近邻算法清除噪声和采样方法产生的重叠实例;同时,基于与少数类样本的平均欧氏距离识别并保留边界多数类样本,然后对剩余的数据进行随机欠采样;最后,利用AdaBoost算法的优势,对平衡后的数据集进行多次迭代训练得到最终的分类模型。仿真实验结果表明,与传统的SMOTE-Boost、RUS-Boost、PC-Boost及改进后的算法KSMOTE-AdaBoost相比,该分类模型在不平衡数据集上的所有性能指标F-measure,G-mean,AUC值分别最高提升了22.97%,13.88%和10.03%,具有更优的分类效果。 展开更多
关键词 类不平衡 smote过采样 ADABOOST算法 噪声样本 边界样本
下载PDF
改进边界分类的Borderline-SMOTE过采样方法 被引量:1
20
作者 马贺 宋媚 祝义 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1003-1012,共10页
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新... 针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC(Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路. 展开更多
关键词 不平衡数据 边界样本 类重叠 Borderline-smote 过采样
下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部