期刊文献+
共找到241篇文章
< 1 2 13 >
每页显示 20 50 100
不平衡数据集的自然邻域超球面过采样方法
1
作者 周玉 岳学震 +1 位作者 刘星 王培崇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第12期81-95,共15页
为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻... 为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻居直至形成稳定的自然邻域;接着,根据每个样本点自然邻居的标签特点,将所有样本点划分为异常点、噪声点、多数类安全点、少数类安全点和少数类边界点5个区域;然后,对每个少数类边界点构建超球面,合并完全处于大超球面中的小超球面,形成一个超球面集合;最后,根据超球面半径大小自适应地为每个超球面分配采样比例,在超球面内生成指定个数的新样本点得到平衡数据集。结果表明,利用该方法在人工数据集和真实数据集上进行过采样形成新的样本集,以CART,SVM和KNN 3个分类器进行实验,并与其他8种常用方法进行对比分析。同时,以AUC值、F_(1)和G_(m)作为评价指标,进一步证明了该方法可以更好的对不平衡数据集进行分类。 展开更多
关键词 不平衡数据集 过采样 自然邻居 超球面 分类
下载PDF
不平衡数据集的DC-SMOTE过采样方法
2
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 不平衡数据集 过采样 高斯核函数 局部引力 不平衡数据 合成少数类过采样 不平衡 分类
下载PDF
基于改进级联算法的不平衡数据集分类检测算法
3
作者 吕文官 薛峰 《保定学院学报》 2024年第2期98-103,共6页
以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部... 以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部密度特征,利用时间编码挖掘数据的时序性特征,采用Apriori算法的强关联规则提取数据集特征;利用模糊层次聚类算法对支持向量机进行优化,实现数据类型的划分;利用改进的级联算法联合布谷鸟算法实现不平衡数据集分类检测.实验结果表明本方法的分类协方差低于0.15,检测准确率高于95%,检测时间低于2.2 ms,有效提升了不平衡数据集分类检测效果. 展开更多
关键词 卡尔曼滤波 改进级联算法 不平衡数据集 分类检测
下载PDF
基于改进决策树的不平衡数据集分类算法研究
4
作者 陈婷 谢志龙 《计算机仿真》 2024年第8期497-501,共5页
不平衡数据集中各类样本数量不均,导致分类模型难以训练。针对不平衡数据分类模型稳定性差,准确率低的问题,提出一种基于改进C4.5决策树数据分类算法,通过融合SMOTE优化采样算法,构建出N_C4.5-IDC不平衡数据分类模型。模型首先利用K-Me... 不平衡数据集中各类样本数量不均,导致分类模型难以训练。针对不平衡数据分类模型稳定性差,准确率低的问题,提出一种基于改进C4.5决策树数据分类算法,通过融合SMOTE优化采样算法,构建出N_C4.5-IDC不平衡数据分类模型。模型首先利用K-Means聚类对数据集进行状态分布分析,并使用SMOTE采样法进行混合采样,通过增加人为样本点提高少数类样本数,对数据集进行平衡处理;然后对C4.5决策树的核心信息增益率模型进行简化改进,提高特征选择效率,并采用回缩损失对比的方法对决策树进行后剪枝处理,构建单一N_C4.5决策树模型;最后将多组N_C4.5模型进行组合叠加,采用加权处理的方法构建N_C4.5-IDC模型。消融实验数据结果表明:优化策略的叠加能显著提高模型性能指标。对比实验数据结果表明:与基线分类算法相比,所提算法准确率最高达96.81%,召回率提高了6.15%,综合性能上升了5.66%。综上,基于改进C4.5决策树构建的不平衡数据分类模型在平衡数据的同时,提高了分类的稳定性与准确性。 展开更多
关键词 不平衡数据集 决策树混合采样
下载PDF
不平衡数据集中采样比例对分类结果影响的研究
5
作者 许思为 周明 +3 位作者 邹瑞 刘吉华 吴俊平 秦雨露 《智能计算机与应用》 2024年第9期111-117,共7页
各领域的发展伴随着大量不同类别数据的产生,数据集样本类别往往存在不平衡的特点,特别是医疗、金融和工业领域的数据集,以往研究专注于采样的方法和分类算法。本文针对不平衡数据集的分类问题,按原始比例抽取验证数据集,对余下数据根... 各领域的发展伴随着大量不同类别数据的产生,数据集样本类别往往存在不平衡的特点,特别是医疗、金融和工业领域的数据集,以往研究专注于采样的方法和分类算法。本文针对不平衡数据集的分类问题,按原始比例抽取验证数据集,对余下数据根据不同采样比例和重采样技术构建训练数据集,运用多种分类算法,研究不同采样比例对分类结果的影响。实验结果表明,当采样比例接近原始比例时,分类器的少数类精确率表现更好;当采样比例接近平衡比例时,少数类召回率表现更佳;而最佳F-Score值出现在原始比例和平衡比例之间。本文为不同的应用需求提供了参考,对少数类精确率要求比较高时,使用原始数据;对少数类召回率要求比较高时,通过采样,平衡数据集的不同类别。 展开更多
关键词 重采样 不平衡数据集 采样比例 召回率 精确率
下载PDF
面向不平衡数据集的一种基于邻域的过采样算法
6
作者 孟国庆 高源 +1 位作者 梅颖 卢诚波 《软件导刊》 2024年第9期116-121,共6页
过采样是一种通过合成新的同类样本解决数据集中类分布不平衡问题的常用方法。针对数据集中样本分布不平衡的问题,提出一种基于邻域概念的PSON算法。该算法定义每个少数类样本的影响力,依据不同影响力对少数类样本进行过采样以获得平衡... 过采样是一种通过合成新的同类样本解决数据集中类分布不平衡问题的常用方法。针对数据集中样本分布不平衡的问题,提出一种基于邻域概念的PSON算法。该算法定义每个少数类样本的影响力,依据不同影响力对少数类样本进行过采样以获得平衡数据集。在50个数据集上对8种过采样算法得到的数据集进行分类测试,通过威尔科克森符号秩检验比较7种分类性能指标,结果表明采用PSON算法后分类准确率提升显著。 展开更多
关键词 不平衡数据集 过采样 分类 逆近邻
下载PDF
不平衡数据集梯度提升算法研究
7
作者 杨森 罗立帆 +1 位作者 刘桓竭 曾求初 《微型计算机》 2024年第3期67-69,共3页
随着机器学习在各个领域的应用不断扩大,处理不平衡数据集的挑战越发显著。不平衡数据集的问题在医学诊断、信用欺诈检测和工业质检等领域广泛存在,提高对不平衡数据集的处理能力至关重要。本文构建XGBoost、LightGBM和CatBoost三种预... 随着机器学习在各个领域的应用不断扩大,处理不平衡数据集的挑战越发显著。不平衡数据集的问题在医学诊断、信用欺诈检测和工业质检等领域广泛存在,提高对不平衡数据集的处理能力至关重要。本文构建XGBoost、LightGBM和CatBoost三种预测分类模型,通过调整参数,使用AUC值作为评分标准,并对比各分类模型在该数据集上的表现情况。 展开更多
关键词 机器学习 不平衡数据集 预测模型 AUC值
下载PDF
改进型加权KNN算法的不平衡数据集分类 被引量:26
8
作者 王超学 潘正茂 +2 位作者 马春森 董丽丽 张涛 《计算机工程》 CAS CSCD 2012年第20期160-163,168,共5页
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚... K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类。基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法。 展开更多
关键词 不平衡数据集 分类 K最邻近算法 权重分配模型 遗传算法 K-MEANS算法
下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:25
9
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成过采样技术(SMOTE) SYNTHETIC MINORITY OVER-SAMPLING technique (SMOTE)
下载PDF
不平衡数据集上的文本分类特征选择新方法 被引量:8
10
作者 张玉芳 王勇 +1 位作者 熊忠阳 刘明 《计算机应用研究》 CSCD 北大核心 2011年第12期4532-4534,共3页
针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法 IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的... 针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法 IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的指标对特征词进行评分,能够更好地解决传统特征选择方法在不平衡数据集上的不适应性,在不降低大类分类性能的同时提高了小类的识别率。实验结果表明,该方法有效可行。 展开更多
关键词 不平衡数据集 文本分类 特征选择 正类 负类
下载PDF
不平衡数据集上的Relief特征选择算法 被引量:15
11
作者 菅小艳 韩素青 崔彩霞 《数据采集与处理》 CSCD 北大核心 2016年第4期838-844,共7页
Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据... Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据集,效果并不理想。基于Relief算法,提出一种干扰数据特征选择算法,称为阈值-Relief算法,有效消除了干扰数据对分类结果的影响。结合K-means算法,提出两种不平衡数据集特征选择算法,分别称为K-means-ReliefF算法和K-means-Relief抽样算法,有效弥补了Relief算法在不平衡数据集上表现出的不足。实验证明了本文算法的有效性。 展开更多
关键词 特征选择 RELIEF算法 RELIEFF算法 不平衡数据集
下载PDF
基于支持向量机的不平衡数据集分类方法研究 被引量:16
12
作者 杨智明 彭宇 彭喜元 《仪器仪表学报》 EI CAS CSCD 北大核心 2009年第5期1094-1099,共6页
研究表明支持向量机分类方法在样本集分布不均衡情况下,对少类样本分类准确率急剧下降。针对该问题,本文提出了一种基于模糊样本集修剪技术和指导型欠采样技术的支持向量机分类算法,并对算法中新引入的参数进行了深入讨论。算法分析和... 研究表明支持向量机分类方法在样本集分布不均衡情况下,对少类样本分类准确率急剧下降。针对该问题,本文提出了一种基于模糊样本集修剪技术和指导型欠采样技术的支持向量机分类算法,并对算法中新引入的参数进行了深入讨论。算法分析和仿真结果表明,文中提出的方法在不增加计算复杂度的前提下,有效地提高了算法整体分类准确率。 展开更多
关键词 支持向量机 不平衡数据集 模糊样本修剪 指导型欠采样
下载PDF
考虑小波奇异信息与不平衡数据集的输电线路故障识别方法 被引量:45
13
作者 黄建明 李晓明 +1 位作者 瞿合祚 张礼得 《中国电机工程学报》 EI CSCD 北大核心 2017年第11期3099-3107,共9页
鉴于输电线路故障识别中数据集的非均衡性问题,提出一种基于小波奇异信息和改进合成少数类过采样(synthetic minority over-sampling technique,SMOTE)算法的输电线路故障识别方法。首先,通过PSCAD/EMTDC仿真构造输电线路故障不平衡数据... 鉴于输电线路故障识别中数据集的非均衡性问题,提出一种基于小波奇异信息和改进合成少数类过采样(synthetic minority over-sampling technique,SMOTE)算法的输电线路故障识别方法。首先,通过PSCAD/EMTDC仿真构造输电线路故障不平衡数据集,结合平稳小波变换(stationary wavelet transform,SWT)与奇异值分解(singular value decomposition,SVD)技术提取相电流及零序电流的故障分量的小波奇异值作为特征参数,然后采用改进SMOTE算法在少数类的样本中心邻域进行插值再抽样处理,调整数据集的不平衡度,利用优化后的数据集训练支持向量机(support vector machine,SVM)组合分类器,对不同故障工况下的10种输电线路故障类型进行分类识别。仿真结果表明,该文的方法能有效地提高分类算法在样本数据不平衡的情况下对少数类的识别能力和整体的识别准确率,具有较好的泛化性和较强的鲁棒性,并且对多种分类算法同样适用。 展开更多
关键词 输电线路 故障类型识别 平稳小波变换 奇异值分解 不平衡数据集 过采样 支持向量机
下载PDF
基于聚类权重分阶段的SVM解不平衡数据集分类 被引量:9
14
作者 王超学 张涛 马春森 《计算机工程与应用》 CSCD 北大核心 2015年第21期133-137,共5页
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时... SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。 展开更多
关键词 不平衡数据集 权重分配模型 支持向量机(SVM)
下载PDF
基于后验概率的不平衡数据集特征选择算法 被引量:5
15
作者 曹苏群 王士同 陈晓峰 《计算机工程》 CAS CSCD 北大核心 2008年第19期1-3,共3页
针对不平衡数据集,提出一种基于后验概率的特征选择算法。该算法引入基于Parzen-window方法估算的不均衡因子,并以Tomeklinks中点为初始值进行迭代,找出满足后验概率相等的判别边界点,通过对这些点法向量进行投影计算得到各特征的权值... 针对不平衡数据集,提出一种基于后验概率的特征选择算法。该算法引入基于Parzen-window方法估算的不均衡因子,并以Tomeklinks中点为初始值进行迭代,找出满足后验概率相等的判别边界点,通过对这些点法向量进行投影计算得到各特征的权值。实验表明,对于不平衡数据集,该算法在不降低分类器总体性能的基础上,不仅可以有效降低维度,节省计算开销,而且能够避免常规特征选择算法用于不平衡数据时忽视小类的缺点。 展开更多
关键词 不平衡数据集 特征选择 后验概率
下载PDF
不平衡数据集的神经网络阈值优化方法 被引量:3
16
作者 李明方 张化祥 +1 位作者 张雯 计华 《计算机工程与应用》 CSCD 北大核心 2010年第20期168-171,共4页
不平衡数据集分类为机器学习热点研究问题之一,近年来研究人员提出很多理论和算法以改进传统分类技术在不平衡数据集上的性能,其中用阈值判定标准确定神经网络中的阈值是重要的方法之一。常用的阈值判定标准存在一定缺点,如不能使少数... 不平衡数据集分类为机器学习热点研究问题之一,近年来研究人员提出很多理论和算法以改进传统分类技术在不平衡数据集上的性能,其中用阈值判定标准确定神经网络中的阈值是重要的方法之一。常用的阈值判定标准存在一定缺点,如不能使少数类及多数类分类精度同时取得最好、过于偏好多数类的精度等。为此提出一种新的阈值判定标准,依据该标准能够使少数类及多数类分类精度同时取得最好而不受样例类别比例的影响。以神经网络与遗传算法相结合训练分类器,作为阈值选择条件和分类器的评价标准,新标准能够得到较好的结果。 展开更多
关键词 不平衡数据集 阈值判定标准 神经网络 遗传算法
下载PDF
基于混合采样的不平衡数据集算法研究 被引量:5
17
作者 张明 胡晓辉 吴嘉昕 《计算机工程与应用》 CSCD 北大核心 2019年第17期68-75,共8页
针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多... 针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。 展开更多
关键词 不平衡数据集 变异系数 SMOTE算法 欠采样
下载PDF
不平衡数据集中的组合分类算法 被引量:4
18
作者 吴广潮 陈奇刚 《计算机工程与设计》 CSCD 北大核心 2007年第23期5687-5689,5761,共4页
为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究。利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子... 为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究。利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子集进行训练,把训练后的各个子分类器组合为一个分类系统,新的测试样本的类别将由这个分类系统投票表决。数据试验结果表明,该算法在多数类和少数类的分类性能方面,都优于最小二乘支持向量机、过抽样方法和欠抽样方法。 展开更多
关键词 不平衡数据集 最小二乘支持向量机 组合分类器 数据预处理 不平衡
下载PDF
面向不平衡数据集的煤矿监测系统异常数据识别方法 被引量:22
19
作者 冀汶莉 郗刘涛 王斌 《工矿自动化》 北大核心 2020年第1期18-25,共8页
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数... 异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。 展开更多
关键词 煤矿安全监测 异常数据识别 不平衡数据集 机器学习 数据 下采样 过采样 随机森林
下载PDF
基于SVM的高维不平衡数据集分类算法 被引量:3
20
作者 赵小强 张露 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期452-461,共10页
由于数据量的不断增长,出现了大量的不平衡高维数据,传统的数据挖掘分类算法在处理这些数据时,易受到样本分布和维数的影响,存在分类性能不佳的问题.提出一种针对不平衡高维数据集的改进支持向量机(Supported Vector Machine,SVM)分类算... 由于数据量的不断增长,出现了大量的不平衡高维数据,传统的数据挖掘分类算法在处理这些数据时,易受到样本分布和维数的影响,存在分类性能不佳的问题.提出一种针对不平衡高维数据集的改进支持向量机(Supported Vector Machine,SVM)分类算法,首先通过核函数将数据集映射到特征空间中,再引入改进的核SMOTE(Kernel Synthetic Minority Over-sampling Technique)算法而得到正类样本,使两类样本数目平衡化;然后将维数高的数据集通过稀疏表示的方法投影到低维的空间中,实现降维;最后根据空间的距离关系来确定在输入空间中合成样本的原像,再对得到的平衡样本集通过SVM来分类,通过仿真实验验证了该算法对于高维不平衡数据集有较优的分类性能. 展开更多
关键词 高维不平衡数据集 分类算法 支持向量机(SVM) 核SMOTE 稀疏表示
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部