期刊文献+
共找到107篇文章
< 1 2 6 >
每页显示 20 50 100
An Imbalanced Data Classification Method Based on Hybrid Resampling and Fine Cost Sensitive Support Vector Machine 被引量:1
1
作者 Bo Zhu Xiaona Jing +1 位作者 Lan Qiu Runbo Li 《Computers, Materials & Continua》 SCIE EI 2024年第6期3977-3999,共23页
When building a classification model,the scenario where the samples of one class are significantly more than those of the other class is called data imbalance.Data imbalance causes the trained classification model to ... When building a classification model,the scenario where the samples of one class are significantly more than those of the other class is called data imbalance.Data imbalance causes the trained classification model to be in favor of the majority class(usually defined as the negative class),which may do harm to the accuracy of the minority class(usually defined as the positive class),and then lead to poor overall performance of the model.A method called MSHR-FCSSVM for solving imbalanced data classification is proposed in this article,which is based on a new hybrid resampling approach(MSHR)and a new fine cost-sensitive support vector machine(CS-SVM)classifier(FCSSVM).The MSHR measures the separability of each negative sample through its Silhouette value calculated by Mahalanobis distance between samples,based on which,the so-called pseudo-negative samples are screened out to generate new positive samples(over-sampling step)through linear interpolation and are deleted finally(under-sampling step).This approach replaces pseudo-negative samples with generated new positive samples one by one to clear up the inter-class overlap on the borderline,without changing the overall scale of the dataset.The FCSSVM is an improved version of the traditional CS-SVM.It considers influences of both the imbalance of sample number and the class distribution on classification simultaneously,and through finely tuning the class cost weights by using the efficient optimization algorithm based on the physical phenomenon of rime-ice(RIME)algorithm with cross-validation accuracy as the fitness function to accurately adjust the classification borderline.To verify the effectiveness of the proposed method,a series of experiments are carried out based on 20 imbalanced datasets including both mildly and extremely imbalanced datasets.The experimental results show that the MSHR-FCSSVM method performs better than the methods for comparison in most cases,and both the MSHR and the FCSSVM played significant roles. 展开更多
关键词 imbalanced data classification Silhouette value Mahalanobis distance RIME algorithm CS-SVM
下载PDF
不平衡数据集的自然邻域超球面过采样方法
2
作者 周玉 岳学震 +1 位作者 刘星 王培崇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第12期81-95,共15页
为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻... 为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻居直至形成稳定的自然邻域;接着,根据每个样本点自然邻居的标签特点,将所有样本点划分为异常点、噪声点、多数类安全点、少数类安全点和少数类边界点5个区域;然后,对每个少数类边界点构建超球面,合并完全处于大超球面中的小超球面,形成一个超球面集合;最后,根据超球面半径大小自适应地为每个超球面分配采样比例,在超球面内生成指定个数的新样本点得到平衡数据集。结果表明,利用该方法在人工数据集和真实数据集上进行过采样形成新的样本集,以CART,SVM和KNN 3个分类器进行实验,并与其他8种常用方法进行对比分析。同时,以AUC值、F_(1)和G_(m)作为评价指标,进一步证明了该方法可以更好的对不平衡数据集进行分类。 展开更多
关键词 不平衡数据集 过采样 自然邻居 超球面 分类
下载PDF
基于改进SPRINT分类算法的数据挖掘模型
3
作者 林敏 王李杰 《信息技术》 2024年第3期170-174,187,共6页
为解决目前数据挖掘模型分类时间长、挖掘准确率不高的问题,提出基于改进决策树分类算法(SPRINT)的数据挖掘模型。先采用最大-最小规范化公式完成原始数据线性变换,利用改进后的SPRINT分类算法按照输入数据特性进行分类,使用协同过滤技... 为解决目前数据挖掘模型分类时间长、挖掘准确率不高的问题,提出基于改进决策树分类算法(SPRINT)的数据挖掘模型。先采用最大-最小规范化公式完成原始数据线性变换,利用改进后的SPRINT分类算法按照输入数据特性进行分类,使用协同过滤技术生成与数据相近的属性集,计算数据属性相似度,生成语义规则集,为用户提供更优的数据服务。选取某公司营销数据集作为样本进行对比实验,结果表明,与对比模型相比,所提出的数据挖掘模型分类时间更短,挖掘准确率更高,能为用户提供更优质的数据服务。 展开更多
关键词 决策树分类算法 协同过滤技术 语义规则集 数据挖掘模型 神经网络
下载PDF
一种基于欠采样的不平衡数据分类算法 被引量:21
4
作者 程险峰 李军 李雄飞 《计算机工程》 CAS CSCD 北大核心 2011年第13期147-149,共3页
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器... 针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。 展开更多
关键词 机器学习 分类算法 不平衡数据 欠采样 邻域
下载PDF
数据挖掘中分类算法综述 被引量:63
5
作者 罗可 林睦纲 郗东妹 《计算机工程》 EI CAS CSCD 北大核心 2005年第1期3-5,11,共4页
分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。此外,提出了评价分类器的5条标准,以... 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。此外,提出了评价分类器的5条标准,以便于研究者提出新的有效算法。 展开更多
关键词 数据挖掘 分类 算法 数据集
下载PDF
不平衡数据分类的研究现状 被引量:46
6
作者 林智勇 郝志峰 杨晓伟 《计算机应用研究》 CSCD 北大核心 2008年第2期332-336,共5页
不平衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不平衡数据也成为目前的一个新的研究热点。综述了这一新领域的研究现状,包括该领域最新研究内容、方法及成果。
关键词 不平衡数据 机器学习 模式分类
下载PDF
SMOTE和Biased-SVM相结合的不平衡数据分类方法 被引量:16
7
作者 王和勇 樊泓坤 姚正安 《计算机科学》 CSCD 北大核心 2008年第5期174-176,共3页
针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使... 针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类。实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度。 展开更多
关键词 机器学习 不平衡数据 数据分类 SMOTE Biased-SVM
下载PDF
非平衡数据集分类方法探讨 被引量:9
8
作者 职为梅 郭华平 +1 位作者 范明 叶阳东 《计算机科学》 CSCD 北大核心 2012年第B06期304-308,共5页
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质... 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 展开更多
关键词 非平衡数据集 分类 抽样技术 代价敏感学习
下载PDF
半监督学习在不平衡样本集分类中的应用研究 被引量:8
9
作者 于重重 商利利 +2 位作者 谭励 涂序彦 杨扬 《计算机应用研究》 CSCD 北大核心 2013年第4期1085-1089,共5页
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对... 在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。 展开更多
关键词 不平衡样本集 半监督协同分类方法 分类器差异性 分类模型 桥梁结构健康数据
下载PDF
非平衡数据集分类问题研究进展 被引量:16
10
作者 高嘉伟 梁吉业 《计算机科学》 CSCD 北大核心 2008年第4期10-13,共4页
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点。文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题。
关键词 非平衡数据集 分类 算法
下载PDF
基于一趟聚类的不平衡数据下抽样算法 被引量:12
11
作者 蒋盛益 苗邦 余雯 《小型微型计算机系统》 CSCD 北大核心 2012年第2期232-236,共5页
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大... 抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高. 展开更多
关键词 不平衡数据 一趟聚类 下抽样
下载PDF
一种基于混合策略的失衡数据集分类方法 被引量:16
12
作者 李鹏 王晓龙 +1 位作者 刘远超 王宝勋 《电子学报》 EI CAS CSCD 北大核心 2007年第11期2161-2165,共5页
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决... 提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证. 展开更多
关键词 失衡数据集 分类 支持向量机 动态自组织映射 K-近邻
下载PDF
面向不均衡数据集中少数类细分的过采样算法 被引量:20
13
作者 古平 杨炀 《计算机工程》 CAS CSCD 北大核心 2017年第2期241-247,共7页
在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE ... 在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE 3个集合,DANGER和AL_SAFE中的样本更靠近决策边界。借助ISMOTE思想在n维球体内随机插值,扩大两类样本的过采样范围,同时引入轮盘赌选择算法进行采样选择,避免新生成的样本冗余。实验结果表明,SD-ISMOTE算法在C4.5和朴素贝叶斯分类器下的分类性能相较于Borderline-SMOTE和ISMOTE均有不同程度的提高,可有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 不均衡数据集 决策边界 分类 随机插值 少数类细分
下载PDF
不均衡数据集文本分类中少数类样本生成方法研究 被引量:5
14
作者 杜娟 姜丽丽 陈红丽 《计算机应用研究》 CSCD 北大核心 2009年第10期3731-3734,共4页
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,... 针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。 展开更多
关键词 不均衡数据集 分类 聚类 遗传算法 样本生成
下载PDF
用于不均衡数据集分类的KNN算法 被引量:9
15
作者 孙晓燕 张化祥 计华 《计算机工程与应用》 CSCD 北大核心 2011年第28期143-145,236,共4页
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,... 针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。 展开更多
关键词 不均衡数据集 K最近邻居(KNN)算法 过抽样 交叉算子
下载PDF
基于哈希技术和MapReduce的大数据集K-近邻算法 被引量:7
16
作者 翟俊海 张明阳 +1 位作者 王婷婷 郝璞 《计算机科学》 CSCD 北大核心 2017年第7期210-214,共5页
K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据... K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。 展开更多
关键词 K-近邻 哈希技术 分类算法 大数据集
下载PDF
Bagging组合的不平衡数据分类方法 被引量:12
17
作者 秦姣龙 王蔚 《计算机工程》 CAS CSCD 北大核心 2011年第14期178-179,182,共3页
提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集... 提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集成学习,通过投票规则集成学习结果。实验结果表明,该方法能够提高少数类的分类准确率,有效处理不平衡数据分类问题。 展开更多
关键词 Bagging组合 不平衡数据分类 支持向量机 神经网络 RANDOM Forests算法
下载PDF
2v-SSPC-一种不平衡数据分类方法 被引量:2
18
作者 薛贞霞 刘三阳 刘万里 《系统工程与电子技术》 EI CSCD 北大核心 2008年第12期2471-2476,共6页
针对现有分类算法通常对不平衡数据挖掘表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,提出一种不平衡数据分类方法。该方法通过一个超球面将两类数据以最大分离比率分离,并且引入两个参... 针对现有分类算法通常对不平衡数据挖掘表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,提出一种不平衡数据分类方法。该方法通过一个超球面将两类数据以最大分离比率分离,并且引入两个参数来分别控制两类错分率的上界,不仅提高了不平衡数据集的分类和预测的性能,而且大大缩小了参数的选择范围。在UCI真实数据上进行了实验,并采用ROC曲线下面积作为评估指标进行比较,结果验证了该方法的有效性。 展开更多
关键词 模式识别 分类算法 不平衡数据 参数选择 超球面
下载PDF
数据挖掘分类问题的贪婪粗糙集约简算法 被引量:7
19
作者 张祥德 张巍 刘玉蓉 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2001年第5期580-583,共4页
基于贪婪算法和粗糙集方法 ,给出了一种处理数据挖掘分类问题的属性约简算法 :贪婪粗糙集约简算法GRSR ;在测试中得出的约简集为原始集的 1/ 3 ,表明了它是一个有效的算法·其想法是 :从初始约简集为空集开始 ,选择使分类质量最大... 基于贪婪算法和粗糙集方法 ,给出了一种处理数据挖掘分类问题的属性约简算法 :贪婪粗糙集约简算法GRSR ;在测试中得出的约简集为原始集的 1/ 3 ,表明了它是一个有效的算法·其想法是 :从初始约简集为空集开始 ,选择使分类质量最大的属性 ,将它加入约简集 ;再从余下的属性中选择使分类质量最大的属性并加入约简集 ,重复直至找到满意的约简集· 展开更多
关键词 数据挖掘 分类 属性约简 粗糙集 贫婪算法 数据库 人工智能 GRSR 模糊数学 数据约简
下载PDF
一种不平衡数据的分类方法 被引量:5
20
作者 李艳玲 郭文普 徐东辉 《中国电子科学研究院学报》 2012年第3期246-251,共6页
针对数据挖掘和机器学习领域中常遇到的数据不平衡问题,分析了数据的不平衡性及目前解决不平衡问题的主要策略,提出了一种基于组合的不平衡数据分类方法,该方法将数据重取样与权重润饰结合,以降低分类器对大类别的偏好。实验结果表明,... 针对数据挖掘和机器学习领域中常遇到的数据不平衡问题,分析了数据的不平衡性及目前解决不平衡问题的主要策略,提出了一种基于组合的不平衡数据分类方法,该方法将数据重取样与权重润饰结合,以降低分类器对大类别的偏好。实验结果表明,权重润饰能够较好的弥补重取样方法的某些不足,该组合方法可有效提高不平衡数据分类精度。 展开更多
关键词 不平衡数据 文本分类 重取样 权重润饰 组合
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部