期刊文献+
共找到123篇文章
< 1 2 7 >
每页显示 20 50 100
不确定性数据挖掘在IDS中的应用
1
作者 刘志明 《电脑开发与应用》 2013年第6期37-39,共3页
简要介绍了入侵检测系统,研究了IDS中入侵检测模型和不确定性数据挖掘方法及过程,对不确定性数据挖掘算法进行了分析评价,并使用KDD CUP 1999数据集在Matlab中进行了实证分析处理及测试。
关键词 不确定性 数据挖掘 粗糙集 入侵检测 ids
下载PDF
An Approach Using Fuzzy Sets and Boosting Techniques to Predict Liver Disease 被引量:4
2
作者 Pushpendra Kumar Ramjeevan Singh Thakur 《Computers, Materials & Continua》 SCIE EI 2021年第9期3513-3529,共17页
The aim of this research is to develop a mechanism to help medical practitioners predict and diagnose liver disease.Several systems have been proposed to help medical experts by diminishing error and increasing accura... The aim of this research is to develop a mechanism to help medical practitioners predict and diagnose liver disease.Several systems have been proposed to help medical experts by diminishing error and increasing accuracy in diagnosing and predicting diseases.Among many existing methods,a few have considered the class imbalance issues of liver disorder datasets.As all the samples of liver disorder datasets are not useful,they do not contribute to learning about classifiers.A few samples might be redundant,which can increase the computational cost and affect the performance of the classifier.In this paper,a model has been proposed that combines noise filter,fuzzy sets,and boosting techniques(NFFBTs)for liver disease prediction.Firstly,the noise filter(NF)eliminates the outliers from the minority class and removes the outlier and redundant pair from the majority class.Secondly,the fuzzy set concept is applied to handle uncertainty in datasets.Thirdly,the AdaBoost boosting algorithm is trained with several learners viz,random forest(RF),support vector machine(SVM),logistic regression(LR),and naive Bayes(NB).The proposed NFFBT prediction system was applied to two datasets(i.e.,ILPD and MPRLPD)and found that AdaBoost with RF yielded 90.65%and 98.95%accuracy and F1 scores of 92.09%and 99.24%over ILPD and MPRLPD datasets,respectively. 展开更多
关键词 Fuzzy set imbalanced data liver disease prediction machine learning noise filter
下载PDF
不平衡数据集的自然邻域超球面过采样方法
3
作者 周玉 岳学震 +1 位作者 刘星 王培崇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第12期81-95,共15页
为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻... 为解决数据集类别不平衡问题,针对不平衡数据集分类提出了一种实现不平衡数据集高性能分类的自然邻域超球面过采样方法(natural neighborhood hypersphere oversampling method,NNHOS)。首先,对不平衡数据集中的每个样本点搜索其自然邻居直至形成稳定的自然邻域;接着,根据每个样本点自然邻居的标签特点,将所有样本点划分为异常点、噪声点、多数类安全点、少数类安全点和少数类边界点5个区域;然后,对每个少数类边界点构建超球面,合并完全处于大超球面中的小超球面,形成一个超球面集合;最后,根据超球面半径大小自适应地为每个超球面分配采样比例,在超球面内生成指定个数的新样本点得到平衡数据集。结果表明,利用该方法在人工数据集和真实数据集上进行过采样形成新的样本集,以CART,SVM和KNN 3个分类器进行实验,并与其他8种常用方法进行对比分析。同时,以AUC值、F_(1)和G_(m)作为评价指标,进一步证明了该方法可以更好的对不平衡数据集进行分类。 展开更多
关键词 不平衡数据集 过采样 自然邻居 超球面 分类
下载PDF
基于改进决策树的不平衡数据集分类算法研究
4
作者 陈婷 谢志龙 《计算机仿真》 2024年第8期497-501,共5页
不平衡数据集中各类样本数量不均,导致分类模型难以训练。针对不平衡数据分类模型稳定性差,准确率低的问题,提出一种基于改进C4.5决策树数据分类算法,通过融合SMOTE优化采样算法,构建出N_C4.5-IDC不平衡数据分类模型。模型首先利用K-Me... 不平衡数据集中各类样本数量不均,导致分类模型难以训练。针对不平衡数据分类模型稳定性差,准确率低的问题,提出一种基于改进C4.5决策树数据分类算法,通过融合SMOTE优化采样算法,构建出N_C4.5-IDC不平衡数据分类模型。模型首先利用K-Means聚类对数据集进行状态分布分析,并使用SMOTE采样法进行混合采样,通过增加人为样本点提高少数类样本数,对数据集进行平衡处理;然后对C4.5决策树的核心信息增益率模型进行简化改进,提高特征选择效率,并采用回缩损失对比的方法对决策树进行后剪枝处理,构建单一N_C4.5决策树模型;最后将多组N_C4.5模型进行组合叠加,采用加权处理的方法构建N_C4.5-IDC模型。消融实验数据结果表明:优化策略的叠加能显著提高模型性能指标。对比实验数据结果表明:与基线分类算法相比,所提算法准确率最高达96.81%,召回率提高了6.15%,综合性能上升了5.66%。综上,基于改进C4.5决策树构建的不平衡数据分类模型在平衡数据的同时,提高了分类的稳定性与准确性。 展开更多
关键词 不平衡数据集 决策树混合采样
下载PDF
不平衡数据分类的研究现状 被引量:46
5
作者 林智勇 郝志峰 杨晓伟 《计算机应用研究》 CSCD 北大核心 2008年第2期332-336,共5页
不平衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不平衡数据也成为目前的一个新的研究热点。综述了这一新领域的研究现状,包括该领域最新研究内容、方法及成果。
关键词 不平衡数据 机器学习 模式分类
下载PDF
一种基于混合策略的失衡数据集分类方法 被引量:16
6
作者 李鹏 王晓龙 +1 位作者 刘远超 王宝勋 《电子学报》 EI CAS CSCD 北大核心 2007年第11期2161-2165,共5页
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决... 提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证. 展开更多
关键词 失衡数据集 分类 支持向量机 动态自组织映射 K-近邻
下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
7
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数类样本合成过采样技术 支持向量机
下载PDF
一种面向不平衡数据分类的组合剪枝方法 被引量:12
8
作者 张银峰 郭华平 +1 位作者 职为梅 范明 《计算机工程》 CAS CSCD 2014年第6期157-161,165,共6页
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器... 传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。 展开更多
关键词 不平衡数据集 组合剪枝 剪枝集 评估指标 基分类器
下载PDF
不均衡数据集学习中基于初分类的过抽样算法 被引量:11
9
作者 韩慧 王路 +1 位作者 温明 王文渊 《计算机应用》 CSCD 北大核心 2006年第8期1894-1897,共4页
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美... 为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。 展开更多
关键词 不均衡数据集 过抽样 欠抽样
下载PDF
SMOTE和Biased-SVM相结合的不平衡数据分类方法 被引量:16
10
作者 王和勇 樊泓坤 姚正安 《计算机科学》 CSCD 北大核心 2008年第5期174-176,共3页
针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使... 针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类。实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度。 展开更多
关键词 机器学习 不平衡数据 数据分类 SMOTE Biased-SVM
下载PDF
聚类边界过采样不平衡数据分类方法 被引量:31
11
作者 楼晓俊 孙雨轩 刘海涛 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第6期944-950,共7页
针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的... 针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的最近邻密度来剔除噪声点和确定合成样本的数量,对SMOTE方法的新样本合成规则进行了优化.该方法是一种指导性的过采样方法,合成样本更加有利于分类器的学习.通过实验对比6种不同方法在UCI公共数据集上的分类性能,结果表明:CB-SMOTE方法对少数类样本和多数类样本都具有较高的分类准确率,且对过采样倍数的变化具有更高的稳定性. 展开更多
关键词 不平衡数据 过采样 聚类边界 最近邻密度 合成样本
下载PDF
面向类不平衡的逻辑回归方法 被引量:10
12
作者 郭华平 董亚东 +1 位作者 邬长安 范明 《模式识别与人工智能》 EI CSCD 北大核心 2015年第8期686-693,共8页
作为机器学习和模式识别中最重要的分类模型之一,逻辑回归(LR)具有较好的可解释性、泛化性.文中将该模型应用到类不平衡问题中,提出面向类不平衡的逻辑回归方法(LRCI)以处理数据不平衡问题.为了充分考虑数据不平衡性,分别构造基于g-mea... 作为机器学习和模式识别中最重要的分类模型之一,逻辑回归(LR)具有较好的可解释性、泛化性.文中将该模型应用到类不平衡问题中,提出面向类不平衡的逻辑回归方法(LRCI)以处理数据不平衡问题.为了充分考虑数据不平衡性,分别构造基于g-mean的目标函数(GBM)和基于f-measure的目标函数(FBM),监督LRCI学习模型参数,进而有效保证学习到的模型同时具有高准确率和召回率.UCI数据集上的实验表明,LRCI在保持LR高准确率的前提下,有效提高它的召回率、g-mean和f-measure.与其他类不平衡分类模型相比,LRCI表现出较明显优势. 展开更多
关键词 不平衡数据集 逻辑回归 g-mean F-MEASURE
下载PDF
面向不平衡数据集分类模型的优化研究 被引量:13
13
作者 温雪岩 陈家男 +1 位作者 景维鹏 徐克生 《计算机工程》 CAS CSCD 北大核心 2018年第4期268-273,293,共7页
为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对... 为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能。实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1%,具有较好的分类效果。 展开更多
关键词 文本分类 不均衡数据集 数据挖掘 样本重采样 熵值法
下载PDF
一种面向非平衡数据集分类问题的组合选择方法 被引量:7
14
作者 职为梅 郭华平 +1 位作者 张银峰 范明 《小型微型计算机系统》 CSCD 北大核心 2014年第4期770-775,共6页
由于类分布的不平衡性,很多传统的分类方法在非平衡数据集上的分类效果不好.与传统的方法不同,论文从组合选择的角度考虑不平衡类学习问题,提出了一种基于实例的组合选择方法 CBES,提升组合分类器在不平衡数据集上的分类性能.CBES考察... 由于类分布的不平衡性,很多传统的分类方法在非平衡数据集上的分类效果不好.与传统的方法不同,论文从组合选择的角度考虑不平衡类学习问题,提出了一种基于实例的组合选择方法 CBES,提升组合分类器在不平衡数据集上的分类性能.CBES考察类标号未知的样本的k近邻,并以此为选择集,从分类器库中选择一个最优或次优的子组合分类器来预测未知样本的类标号.由于考虑了待分类样本的局部特征,更关注稀有类,因此CBES能够更好地对非平衡数据集进行分类.实验结果表明,本文的方法能够显著地降低模型的复杂度,有效地提高了非平衡数据集上的分类性能. 展开更多
关键词 非平衡数据集 组合分类器 组合选择 K近邻 基分类器
下载PDF
非平衡数据集分类方法探讨 被引量:9
15
作者 职为梅 郭华平 +1 位作者 范明 叶阳东 《计算机科学》 CSCD 北大核心 2012年第B06期304-308,共5页
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质... 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 展开更多
关键词 非平衡数据集 分类 抽样技术 代价敏感学习
下载PDF
基于三支决策的不平衡数据过采样方法 被引量:31
16
作者 胡峰 王蕾 周耀 《电子学报》 EI CAS CSCD 北大核心 2018年第1期135-144,共10页
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采... 采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法. 展开更多
关键词 三支决策 邻域粗糙集 边界采样 不平衡数据 SMOTE
下载PDF
非平衡数据集分类问题研究进展 被引量:16
17
作者 高嘉伟 梁吉业 《计算机科学》 CSCD 北大核心 2008年第4期10-13,共4页
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点。文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题。
关键词 非平衡数据集 分类 算法
下载PDF
面向不均衡数据集中少数类细分的过采样算法 被引量:20
18
作者 古平 杨炀 《计算机工程》 CAS CSCD 北大核心 2017年第2期241-247,共7页
在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE ... 在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE 3个集合,DANGER和AL_SAFE中的样本更靠近决策边界。借助ISMOTE思想在n维球体内随机插值,扩大两类样本的过采样范围,同时引入轮盘赌选择算法进行采样选择,避免新生成的样本冗余。实验结果表明,SD-ISMOTE算法在C4.5和朴素贝叶斯分类器下的分类性能相较于Borderline-SMOTE和ISMOTE均有不同程度的提高,可有效解决数据集中样本分布不均衡的问题。 展开更多
关键词 不均衡数据集 决策边界 分类 随机插值 少数类细分
下载PDF
半监督学习在不平衡样本集分类中的应用研究 被引量:8
19
作者 于重重 商利利 +2 位作者 谭励 涂序彦 杨扬 《计算机应用研究》 CSCD 北大核心 2013年第4期1085-1089,共5页
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对... 在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。 展开更多
关键词 不平衡样本集 半监督协同分类方法 分类器差异性 分类模型 桥梁结构健康数据
下载PDF
不均衡数据集文本分类中少数类样本生成方法研究 被引量:5
20
作者 杜娟 姜丽丽 陈红丽 《计算机应用研究》 CSCD 北大核心 2009年第10期3731-3734,共4页
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,... 针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。 展开更多
关键词 不均衡数据集 分类 聚类 遗传算法 样本生成
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部