期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
A Rebalancing Framework for Classification of Imbalanced Medical Appointment No-show Data 被引量:1
1
作者 Ulagapriya Krishnan Pushpa Sangar 《Journal of Data and Information Science》 CSCD 2021年第1期178-192,共15页
Purpose: This paper aims to improve the classification performance when the data is imbalanced by applying different sampling techniques available in Machine Learning.Design/methodology/approach: The medical appointme... Purpose: This paper aims to improve the classification performance when the data is imbalanced by applying different sampling techniques available in Machine Learning.Design/methodology/approach: The medical appointment no-show dataset is imbalanced, and when classification algorithms are applied directly to the dataset, it is biased towards the majority class, ignoring the minority class. To avoid this issue, multiple sampling techniques such as Random Over Sampling(ROS), Random Under Sampling(RUS), Synthetic Minority Oversampling TEchnique(SMOTE), ADAptive SYNthetic Sampling(ADASYN), Edited Nearest Neighbor(ENN), and Condensed Nearest Neighbor(CNN) are applied in order to make the dataset balanced. The performance is assessed by the Decision Tree classifier with the listed sampling techniques and the best performance is identified.Findings: This study focuses on the comparison of the performance metrics of various sampling methods widely used. It is revealed that, compared to other techniques, the Recall is high when ENN is applied CNN and ADASYN have performed equally well on the Imbalanced data.Research limitations: The testing was carried out with limited dataset and needs to be tested with a larger dataset.Practical implications: This framework will be useful whenever the data is imbalanced in real world scenarios, which ultimately improves the performance.Originality/value: This paper uses the rebalancing framework on medical appointment no-show dataset to predict the no-shows and removes the bias towards minority class. 展开更多
关键词 imbalanced data sampling methods Machine learning classification
下载PDF
基于Boosting的不平衡数据分类算法研究 被引量:17
2
作者 李秋洁 茅耀斌 王执铨 《计算机科学》 CSCD 北大核心 2011年第12期224-228,共5页
研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一... 研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。 展开更多
关键词 不平衡数据分类 boosting 采样
下载PDF
基于TimeGAN数据增强的复杂过程故障分类方法
3
作者 杨磊 何鹏举 丑幸幸 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第9期1768-1780,共13页
针对传统基于重构的故障分类方法在故障样本稀疏或失衡情况下效果不佳、故障子空间区分能力弱的问题,提出基于TimeGAN数据增强的复杂过程故障分类方法.针对小子样故障,使用TimeGAN对历史故障数据进行数据增强,生成与历史数据分布相似的... 针对传统基于重构的故障分类方法在故障样本稀疏或失衡情况下效果不佳、故障子空间区分能力弱的问题,提出基于TimeGAN数据增强的复杂过程故障分类方法.针对小子样故障,使用TimeGAN对历史故障数据进行数据增强,生成与历史数据分布相似的虚拟故障样本;采用马氏距离评估虚拟样本的质量,剔除不可信样本,构造平衡的故障样本集.将故障样本映射到高维核空间,并在核空间中提取故障子空间.设计故障分类策略并定义4种故障分类性能评估指标以定量衡量算法的分类性能.Tennessee Eastman应用结果表明,所提数据增强方法可以有效扩充故障样本,进而提高故障重构率.与WGAN-GP和SMOTE方法进行对比,发现基于TimeGAN数据增强的故障分类方法具有更好的分类性能. 展开更多
关键词 故障分类 样本不平衡 数据增强 故障子空间 时间序列生成对抗网络
下载PDF
基于联合熵的非平衡数据边界混合重采样
4
作者 周传华 任太娇 +1 位作者 罗岚 周昊 《计算机与现代化》 2024年第9期95-100,113,共7页
为了克服在数据平衡处理过程中单一重采样方法易生成冗余样本及误删重要样本信息的局限,本文提出一种基于联合熵的非平衡数据边界混合重采样算法。该算法首先通过引入边界因子对边界集和非边界集进行有效的区分,进一步构建一个联合熵指... 为了克服在数据平衡处理过程中单一重采样方法易生成冗余样本及误删重要样本信息的局限,本文提出一种基于联合熵的非平衡数据边界混合重采样算法。该算法首先通过引入边界因子对边界集和非边界集进行有效的区分,进一步构建一个联合熵指标体系以判断出边界集中少数类样本的重要程度,并根据其重要程度对细分后的少数类样本点设置不同的过采样方法和采样数量,最后使用NearMiss-2算法对非边界集中多数类样本点进行筛选并删除,从而实现数据的相对平衡。通过对9组UCI数据集进行对比实验,实验结果表明:该算法在F1-Score、G-mean及AUC这3个指标上均有提升,验证了其有效性,有较好的非平衡数据分类性能表现。 展开更多
关键词 不平衡数据分类 边界因子 联合熵 混合采样
下载PDF
三支边缘过采样的不平衡文本情感分类
5
作者 余啟煬 方宇 +2 位作者 李昭宸 刘畅 杨梅 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第3期201-211,共11页
在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样(three-way sampling, 3WS)与过采样为基础,提出了三支过采样算法(three-... 在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样(three-way sampling, 3WS)与过采样为基础,提出了三支过采样算法(three-way SMOTE,3WOS)和三支边缘过采样算法(three-way borderline-SMOTE,3WOBS),3WOS能够更好地识别边界区域上的数据,3WOBS可以增强边界区域所蕴含的信息。首先,将文本数据构建为超球,获得超球边缘的支持向量。其次,3WOS对边缘上的支持向量直接进行过采样以生成合成新样本并更新样本集,3WOBS则在生成合成新样本后根据给定条件判断是否获得该新样本并更新样本集。最后,将更新的样本集放在不同的基分类器上进行对比实验。实验采用了3个不平衡数据集,并保证了不同的不平衡比。同时,在数据集训练过程中引入粒计算思想,确保模型的鲁棒性。实验结果表明,3WOS-ITSC与3WOBS-ITSC准确率较高且代价低于其他模型,为不平衡文本分类问题提供了新思路。 展开更多
关键词 情感分类 不平衡数据 三支决策 采样 粒计算
下载PDF
一种不平衡数据多策略处理及组合分类算法
6
作者 张晓鹏 秦亮曦 《计算机应用与软件》 北大核心 2024年第4期242-250,305,共10页
针对传统机器学习算法分类不平衡数据时分类结果通常会忽略少数类的问题,提出一种基于多策略处理的组合分类算法MsBoost。对数据进行聚类;对少数类进行过抽样,对多数类采用提出的“三合一”算法进行欠抽样;为不同类的样本赋予不同的权重... 针对传统机器学习算法分类不平衡数据时分类结果通常会忽略少数类的问题,提出一种基于多策略处理的组合分类算法MsBoost。对数据进行聚类;对少数类进行过抽样,对多数类采用提出的“三合一”算法进行欠抽样;为不同类的样本赋予不同的权重;将抽样后的两类样本结合,并用AdaBoost算法对基学习器进行组合。将MsBoost算法与AdaBoost、RusBoost、SmoteBoost和CusBoost算法在12个KEEL不平衡数据集上做了性能对比实验,该算法在AUC和G-mean指标值均取得了6次最优和2次次优的结果,在F1分数指标上取得了1次最优和6次次优的结果,表明该算法能有效地分类不平衡数据。 展开更多
关键词 不平衡数据 分类 抽样 代价敏感 组合
下载PDF
基于特征间关系合成少数类样本的过采样算法 被引量:1
7
作者 雷明珠 王浩 +2 位作者 贾蓉 白琳 潘晓英 《计算机应用》 CSCD 北大核心 2024年第5期1428-1436,共9页
数据不平衡的现象在现实生活中非常普遍。为了提高整体分类精度,分类器有时会以错分少数类为代价。但在现实生活中,对少数类进行错误分类的后果非常严重。考虑到传统重采样算法容易忽略数据的空间分布和少数类样本特征之间的关系,提出... 数据不平衡的现象在现实生活中非常普遍。为了提高整体分类精度,分类器有时会以错分少数类为代价。但在现实生活中,对少数类进行错误分类的后果非常严重。考虑到传统重采样算法容易忽略数据的空间分布和少数类样本特征之间的关系,提出一种基于特征关系的采样算法(SABRF)生成新的样本集。SABRF通过帕累托多目标特征选择保留不平衡数据集的关键区分特征,同时通过极端梯度提升(XGBoost)回归模型捕获少数类样本关键特征之间的关系。此外,还提出一个新的样本选择策略衡量新生成样本的质量。使用6个公开的UCI数据集和1个真实的骨科术后血栓数据集进行实验,结果表明,SABRF在受试者工作特征曲线下面积(AUC)、F1分数(F1_score)和几何平均值(G_mean)上均有较好的表现;此外,对使用基于多指标评价的样本选择策略挑选出的新样本进行分类,不平衡数据的分类结果也最好,验证了样本选择策略的有效性。 展开更多
关键词 不平衡数据 过采样 特征选择 样本质量评估 极端梯度提升回归 帕累托前沿
下载PDF
不平衡数据集下基于多粒度近邻图的智能电表故障分类方法
8
作者 黄子健 高欣 +3 位作者 李保丰 翟峰 秦煜 叶平 《电网技术》 EI CSCD 北大核心 2024年第3期1291-1300,共10页
智能电表故障的准确预测对实现计量设备精准主动运维、保障电网稳定运行具有重要意义。电表各故障类型样本的出现频次不同,且不同故障类型样本在高维特征空间中的分布存在重叠,这极大增加了故障预测的难度。现有不平衡分类方法通过构建... 智能电表故障的准确预测对实现计量设备精准主动运维、保障电网稳定运行具有重要意义。电表各故障类型样本的出现频次不同,且不同故障类型样本在高维特征空间中的分布存在重叠,这极大增加了故障预测的难度。现有不平衡分类方法通过构建单一样本信息与其对应类别标签的映射关系来划分样本类型,导致对具有相似表征信息的重叠区样本难以准确判别,降低了整体分类精度。该文提出一种基于多粒度近邻图的智能电表故障分类方法。首先,选择原始数据集中样本作为目标样本,以目标样本及其近邻样本作为节点、目标样本与其近邻样本连线作为边构建近邻图。根据选择的近邻样本数量不同构建多粒度近邻图,实现目标样本的信息扩充和训练样本的数量扩增,更有利于模型稳定训练。构建编码器挖掘近邻图节点特征,利用图注意力机制,根据近邻图节点编码特征和节点邻接关系将近邻样本信息自适应地聚合到目标样本,实现对相似样本差异的有效挖掘。对于给定测试样本,通过集成测试样本多粒度近邻图的分类结果,得到更精准、更鲁棒的智能电表故障预测结果。在20个KEEL(knowledge extraction based on evolutionary learning)和UCI(UC Irvine machine learning repository)不平衡分类公开数据集和智能电表实际故障数据集上的大量实验结果表明,与17种典型方法相比,该文所提算法在处理智能电表故障分类问题上具有显著优势。 展开更多
关键词 智能电表故障分类 不平衡数据 多粒度近邻图 图神经网络 样本信息聚合
下载PDF
基于样本势和噪声进化的不平衡数据过采样方法
9
作者 冷强奎 孙薛梓 孟祥福 《计算机应用》 CSCD 北大核心 2024年第8期2466-2475,共10页
在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大... 在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大量噪声。基于此,提出一种基于样本势和噪声进化的不平衡数据过采样方法,进一步对采样后的数据集迭代进化。首先,使用RBO方法通过计算样本势合成少数类样本,并改善原始数据的不平衡;其次,使用自然近邻(NaN)作为错误检测技术检测过采样后数据集中存在的疑似噪声样本;最后,利用改进的差分进化(DE)方法对检测出的疑似噪声样本迭代进化。相较于传统过采样方法,所提方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在22个基准数据集上,与7种经典采样方法(结合3种不同分类器)进行了大量对比实验。实验结果表明,所提方法具有更高的F1值和G-mean值,并且在噪声处理方面也优于带有后置过滤器的采样方法,可以更有效地解决不平衡数据分类问题。此外,统计分析也表明它的弗里德曼排名更高。 展开更多
关键词 K近邻 径向基过采样 样本势 自然近邻 差分进化 不平衡数据分类
下载PDF
基于安全欠采样的不均衡多标签数据集成学习方法
10
作者 孙中彬 刁宇轩 马苏洋 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3392-3408,共17页
多标签分类任务广泛存在于现实生活中,然而其经常存在不均衡数据问题,严重影响了分类性能.目前解决该问题的主流技术为重采样方法,主要分为过采样和欠采样,过采样通过生成与少数类标签相关的样本,欠采样则是通过删除与多数类标签相关的... 多标签分类任务广泛存在于现实生活中,然而其经常存在不均衡数据问题,严重影响了分类性能.目前解决该问题的主流技术为重采样方法,主要分为过采样和欠采样,过采样通过生成与少数类标签相关的样本,欠采样则是通过删除与多数类标签相关的样本.然而,这些方法都专注于解决一种不均衡问题,即标签内不均衡或标签间不均衡,导致在解决一种不均衡的同时可能引入另一种不均衡.针对该问题,本文提出一种基于安全欠采样的不均衡多标签数据集成学习方法ESUS(Ensemble learning method based on Safe Under-Sampling).首先通过标签划分将多标签不均衡数据集划分成单标签数据集和标签对数据集,针对单标签数据集,提出一种安全欠采样方法解决标签内不均衡问题,并利用采样后的均衡数据集构建二分类模型.对于标签对数据集,进行数据剪枝后利用集成学习解决标签间不均衡问题,在保持分类性能的同时降低时空复杂度.最后将单标签数据集模型和标签对数据集模型集成为最终的分类模型.在六个多标签不均衡数据集上的实验结果表明:和七种对比方法相比,ESUS方法在四个评价指标上更稳定有效. 展开更多
关键词 多标签分类 不均衡数据 标签划分 安全欠采样 数据剪枝 集成学习
下载PDF
不平衡数据的集成分类算法综述 被引量:75
11
作者 李勇 刘战东 张海军 《计算机应用研究》 CSCD 北大核心 2014年第5期1287-1291,共5页
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学... 集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。 展开更多
关键词 不平衡数据 集成学习 分类 代价敏感 数据采样
下载PDF
一种改进的降噪自编码神经网络不平衡数据分类算法 被引量:16
12
作者 张成刚 宋佳智 +1 位作者 姜静清 裴志利 《计算机应用研究》 CSCD 北大核心 2017年第5期1329-1332,共4页
针对少数类样本合成过采样技术(synthetic minority over-sampling technique,SMOTE)在合成少数类新样本时会带来噪声问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法通过SMOTE方法合成少数类新样本以均... 针对少数类样本合成过采样技术(synthetic minority over-sampling technique,SMOTE)在合成少数类新样本时会带来噪声问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪声的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。 展开更多
关键词 神经网络 过采样 不平衡数据 分类
下载PDF
非平衡数据集分类方法探讨 被引量:9
13
作者 职为梅 郭华平 +1 位作者 范明 叶阳东 《计算机科学》 CSCD 北大核心 2012年第B06期304-308,共5页
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质... 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 展开更多
关键词 非平衡数据集 分类 抽样技术 代价敏感学习
下载PDF
半监督学习在不平衡样本集分类中的应用研究 被引量:8
14
作者 于重重 商利利 +2 位作者 谭励 涂序彦 杨扬 《计算机应用研究》 CSCD 北大核心 2013年第4期1085-1089,共5页
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对... 在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。 展开更多
关键词 不平衡样本集 半监督协同分类方法 分类器差异性 分类模型 桥梁结构健康数据
下载PDF
基于RSBoost算法的不平衡数据分类方法 被引量:21
15
作者 李克文 杨磊 +2 位作者 刘文英 刘璐 刘洪太 《计算机科学》 CSCD 北大核心 2015年第9期249-252,267,共5页
不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法 RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行... 不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法 RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行过采样处理,然后对整个数据集进行随机欠采样处理,以改善整个数据集的不平衡性,再将其与Boosting算法相结合来对数据进行分类。通过实验对比了5种方法在多个公共数据集上的分类效果和分类效率,结果表明该方法具有较高的分类识别率和分类效率。 展开更多
关键词 不平衡数据 组合数据采样 boosting RSBoost
下载PDF
ENN-ADASYN-SVM算法检测P2P僵尸网络的研究 被引量:7
16
作者 康松林 樊晓平 +2 位作者 刘乐 李宏 李明娟 《小型微型计算机系统》 CSCD 北大核心 2016年第2期216-220,共5页
由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率... 由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率.同时,之前的文献并没有考虑到正常的网络流量和僵尸网络流量严重不平衡的问题.为了解决以上两个问题,提出一种基于最近邻规则欠抽样方法(ENN)和ADASYN(Adaptive Synthetic Sampling)结合的不均衡数据SVM分类算法应用于P2P僵尸网络检测.实验结果表明,无论是僵尸网络还是正常的流量,该方法都具有很高的正确率,并能在短时间内达到很好的分类效果;较之其他算法,它更适合处理大规模网络实时环境中大量的原始数据,对统计数据依赖性小,对不均衡数据分类具有较好的鲁棒性.因此,基于不均衡数据ENN-ADASYN-SVM分类算法更适应于复杂多变的网络环境下的P2P僵尸网络检测. 展开更多
关键词 P2P僵尸网络检测 SVM 不均衡数据分类 最近邻规则欠抽样方法(ENN) ADASYN
下载PDF
基于一趟聚类的不平衡数据下抽样算法 被引量:12
17
作者 蒋盛益 苗邦 余雯 《小型微型计算机系统》 CSCD 北大核心 2012年第2期232-236,共5页
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大... 抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高. 展开更多
关键词 不平衡数据 一趟聚类 下抽样
下载PDF
基于粒子群优化的不均衡数据学习 被引量:5
18
作者 曹鹏 李博 +1 位作者 栗伟 赵大哲 《计算机应用》 CSCD 北大核心 2013年第3期789-792,共4页
为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算... 为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算法在大量UCI数据集上进行了测试,与其他不均衡学习算法进行比较,结果表明该算法具有更高的分类性能;并验证了同时优化采样率和特征集合,可有效地改进不均衡数据分类效果。 展开更多
关键词 粒子群优化 群体智能 不均衡数据分类 重采样 特征选择
下载PDF
基于MapReduce和上采样的两类非平衡大数据集成分类 被引量:3
19
作者 翟俊海 张明阳 +2 位作者 王陈希 刘晓萌 王耀达 《数据采集与处理》 CSCD 北大核心 2018年第3期416-425,共10页
提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机... 提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。 展开更多
关键词 大数据 非平衡分类 上采样 最近邻
下载PDF
用于不平衡数据分类的代价敏感超网络算法 被引量:7
20
作者 郑燕 王杨 +1 位作者 郝青峰 甘振韬 《计算机应用》 CSCD 北大核心 2014年第5期1336-1340,1377,共6页
传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自... 传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自适应正类的错分代价,采用Boosting算法对代价敏感超网络进行集成。代价敏感超网络能很好地修正传统的超网络在处理不平衡数据分类问题时过分偏向正类的缺陷,提高对负类的分类准确性。实验结果表明,代价敏感超网络Boosting集成算法具有处理不平衡数据分类问题的优势。 展开更多
关键词 不平衡数据分类 超网络 代价敏感学习 自适应学习
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部