期刊文献+
共找到263篇文章
< 1 2 14 >
每页显示 20 50 100
基于方差迁移的非平衡数据过采样方法
1
作者 郑一凡 王卯宁 《计算机科学》 CSCD 北大核心 2024年第S01期645-650,共6页
重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息... 重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息,且仍然存在着过拟合的风险。针对这些问题,提出了一种基于多数类方差迁移的少数类合成方法(Variance Transfer Oversampling,VTO),从足够多样化的多数类中提取样本偏移向量,综合少数类和多数类的特征权重矩阵以调整,最终将经过置信条件筛选的偏移向量叠加至少数类样本中心,从而在少数类样本生成中引入多数类方差,进而丰富少数类特征空间。为了验证所提算法的有效性,使用决策树为分类模型在6个KEEL数据集上训练,对比SMOTEENN等其他过采样方法,以F-score和PR-AUC值为评价指标进行了实验。结果显示,该算法在处理非平衡数据分类问题时具有更大优势。 展开更多
关键词 非平衡数据 分类 过采样 方差迁移 协方差
下载PDF
代价敏感惩罚AdaBoost算法的非平衡数据分类 被引量:4
2
作者 鲁淑霞 张振莲 翟俊海 《南京航空航天大学学报》 CAS CSCD 北大核心 2023年第2期339-346,共8页
针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向... 针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向量机(Support vector machine,SVM)优化模型作为基分类器,采用带有方差减小的随机梯度下降方法(Stochastic variance reduced gradient,SVRG)对优化模型进行求解。对比实验表明,本文提出的算法不但在几何均值(G-mean)和ROC曲线下的面积(Area under ROC curve,AUC)上明显优于其他算法,而且获得了较大的平均间隔,显示了本文算法在处理非平衡数据分类问题上的有效性。 展开更多
关键词 非平衡数据 惩罚AdaBoost 自适应代价敏感函数 平均间隔 随机梯度下降
下载PDF
基于邻域容差互信息和鲸鱼优化算法的非平衡数据特征选择 被引量:2
3
作者 孙林 黄金旭 徐久成 《计算机应用》 CSCD 北大核心 2023年第6期1842-1854,共13页
针对大多数特征选择算法未充分考虑数据的类不均匀分布、特征之间的相关性和不同参数对特征选择结果的影响等问题,提出一种基于邻域容差互信息和鲸鱼优化算法(WOA)的非平衡数据特征选择方法。首先,在不完备邻域决策系统中,针对二分类数... 针对大多数特征选择算法未充分考虑数据的类不均匀分布、特征之间的相关性和不同参数对特征选择结果的影响等问题,提出一种基于邻域容差互信息和鲸鱼优化算法(WOA)的非平衡数据特征选择方法。首先,在不完备邻域决策系统中,针对二分类数据集和多分类数据集,基于上、下边界域定义两种非平衡数据的特征重要度;然后,为充分反映特征的决策能力和特征之间的相关性,构建邻域容差互信息;最后,通过将非平衡数据特征重要度和邻域容差互信息相结合,提出基于邻域容差互信息的非平衡数据特征选择(FSIDN)算法,该算法采用WOA获取特征选择算法中的最优参数,并引入非线性收敛因子和自适应惯性权重来改进WOA,以解决WOA易陷入局部最优的问题。在8个基准函数上进行实验,结果表明改进的WOA具有较好的优化性能;在13个二分类和4个多分类的非平衡数据集上进行特征选择实验,实验结果表明,与其他相关算法相比,所提算法能够有效地选择出具有良好分类性能的特征子集。 展开更多
关键词 非平衡数据 特征选择 不完备邻域决策系统 互信息 鲸鱼优化算法
下载PDF
基于卷积神经网络的结构化非平衡数据分类算法 被引量:3
4
作者 徐红 矫桂娥 +1 位作者 张文俊 陈一民 《计算机工程》 CAS CSCD 北大核心 2023年第2期81-89,共9页
卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结... 卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结构化数据处理算法Data-Shuffle,将原始非平衡一维结构化数据转换为三维数组形式的多通道非平衡数据,为卷积神经网络提供更多的特征值,通过改进的VGG网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。在此基础上,提出更新权重加权采样算法UWSCNN,在每个迭代次数之后,根据模型的训练结果对易错样本进行重新加权,以优化训练结果。在adult、shoppers和diabetes数据集上的实验结果表明,相比逻辑回归、随机森林等传统机器学习模型,所提的Data-Shuffle算法的F1值提升了1%~19%,G-mean提升了2%~24%,相比SMOTECNN、BSMOTECNN、SMOTECNN+CS等采样算法,所提的UWSCNN算法对非平衡数据的分类效果提升了1%~13%,有效提高模型对非平衡数据的分类性能。 展开更多
关键词 非平衡数据 结构化数据 VGG网络 深度学习 卷积神经网络
下载PDF
非平衡数据集下基于XGBoost模型的财务舞弊识别研究
5
作者 王琦 熊莎丽娜 +3 位作者 詹柔 张露 杨鑫 张健 《计算机时代》 2023年第12期59-63,共5页
针对现实中舞弊样本与非舞弊样本存在的数量不平衡情况,通过25个财务指标与2个非财务指标,运用过采样、欠采样技术及XGBoost模型进行财务报表舞弊识别研究。结果表明,SMOTE过采样方法与XGBoost模型的结合在非平衡数据集下具有较好的整... 针对现实中舞弊样本与非舞弊样本存在的数量不平衡情况,通过25个财务指标与2个非财务指标,运用过采样、欠采样技术及XGBoost模型进行财务报表舞弊识别研究。结果表明,SMOTE过采样方法与XGBoost模型的结合在非平衡数据集下具有较好的整体识别效果,对上市公司财务报表舞弊的智能识别有一定参考意义。 展开更多
关键词 非平衡数据 财务报表舞弊识别 SMOTE XGBoost
下载PDF
一种基于核SMOTE的非平衡数据集分类方法 被引量:48
6
作者 曾志强 吴群 +1 位作者 廖备水 高济 《电子学报》 EI CAS CSCD 北大核心 2009年第11期2489-2495,共7页
本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空... 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果. 展开更多
关键词 非平衡数据 支持向量机 输入空间 特征空间 原像
下载PDF
基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法 被引量:17
7
作者 翟云 王树鹏 +2 位作者 马楠 杨炳儒 张德政 《电子学报》 EI CAS CSCD 北大核心 2014年第7期1311-1319,共9页
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合... 非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率. 展开更多
关键词 非平衡数据分类 单边选择链 分布密度 重采样
下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
8
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据 分类 支持度 轮盘赌选择 合成少数过采样技术(SMOTE)
下载PDF
处理非平衡数据的粒度SVM学习算法 被引量:15
9
作者 郭虎升 亓慧 王文剑 《计算机工程》 CAS CSCD 北大核心 2010年第2期181-183,共3页
针对支持向量机对于非平衡数据不能进行有效分类的问题,提出一种粒度支持向量机学习算法。根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡。通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数... 针对支持向量机对于非平衡数据不能进行有效分类的问题,提出一种粒度支持向量机学习算法。根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡。通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数类样本上进行有效学习,使SVM在非平衡数据集上获得令人满意的泛化能力。 展开更多
关键词 粒度支持向量机 非平衡数据 信息粒 局部支持向量
下载PDF
非平衡数据集分类方法探讨 被引量:9
10
作者 职为梅 郭华平 +1 位作者 范明 叶阳东 《计算机科学》 CSCD 北大核心 2012年第B06期304-308,共5页
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质... 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 展开更多
关键词 非平衡数据 分类 抽样技术 代价敏感学习
下载PDF
一种面向非平衡数据集分类问题的组合选择方法 被引量:7
11
作者 职为梅 郭华平 +1 位作者 张银峰 范明 《小型微型计算机系统》 CSCD 北大核心 2014年第4期770-775,共6页
由于类分布的不平衡性,很多传统的分类方法在非平衡数据集上的分类效果不好.与传统的方法不同,论文从组合选择的角度考虑不平衡类学习问题,提出了一种基于实例的组合选择方法 CBES,提升组合分类器在不平衡数据集上的分类性能.CBES考察... 由于类分布的不平衡性,很多传统的分类方法在非平衡数据集上的分类效果不好.与传统的方法不同,论文从组合选择的角度考虑不平衡类学习问题,提出了一种基于实例的组合选择方法 CBES,提升组合分类器在不平衡数据集上的分类性能.CBES考察类标号未知的样本的k近邻,并以此为选择集,从分类器库中选择一个最优或次优的子组合分类器来预测未知样本的类标号.由于考虑了待分类样本的局部特征,更关注稀有类,因此CBES能够更好地对非平衡数据集进行分类.实验结果表明,本文的方法能够显著地降低模型的复杂度,有效地提高了非平衡数据集上的分类性能. 展开更多
关键词 非平衡数据 组合分类器 组合选择 K近邻 基分类器
下载PDF
非平衡数据训练方法概述 被引量:10
12
作者 张琦 吴斌 王柏 《计算机科学》 CSCD 北大核心 2005年第10期181-186,共6页
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类... 现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法。 展开更多
关键词 非平衡数据 小析取项 元学习 训练方法 数据挖掘 评估度量
下载PDF
针对非平衡数据分类的新型模糊SVM模型 被引量:19
13
作者 蔡艳艳 宋晓东 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2015年第5期120-124,160,共6页
提出了一种新的模糊支持向量机模型——非平衡数据分类的支持向量机模型,通过改进惩罚函数,降低模型对于含有噪声点的非平衡样本数据的敏感性,并采用网格搜索算法来确定各个支持向量机模型中参数的优化取值.研究结果表明,非平衡数据分... 提出了一种新的模糊支持向量机模型——非平衡数据分类的支持向量机模型,通过改进惩罚函数,降低模型对于含有噪声点的非平衡样本数据的敏感性,并采用网格搜索算法来确定各个支持向量机模型中参数的优化取值.研究结果表明,非平衡数据分类的支持向量机模型对非平衡样本数据进行分类的效果优于其他方法,不仅总体判别精度较高,也提高了少数类样本的判别精度,取得了较好的改进效果. 展开更多
关键词 支持向量机 分类 非平衡数据 噪声 惩罚函数
下载PDF
非平衡数据集分类问题研究进展 被引量:16
14
作者 高嘉伟 梁吉业 《计算机科学》 CSCD 北大核心 2008年第4期10-13,共4页
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点。文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题。
关键词 非平衡数据 分类 算法
下载PDF
非平衡数据集Fisher线性判别模型 被引量:15
15
作者 谢纪刚 裘正定 《北京交通大学学报》 EI CAS CSCD 北大核心 2006年第5期15-18,共4页
非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导... 非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导致Fisher线性判别的性能下降.在此基础上,提出了一种加权Fisher线性判别(WFLD),以减小样本不平衡的影响.然后,从UCI中选择了8个非平衡数据集,并采用ROC曲线下面积作为评估指标进行比较,实验结果证明了WFLD模型的有效性. 展开更多
关键词 非平衡数据 FISHER线性判别 ROC曲线下面积(AUC)
下载PDF
Logistic回归的非平衡数据问题及其解决方法 被引量:5
16
作者 李刚 李纯青 张莉 《统计与决策》 CSSCI 北大核心 2013年第20期8-10,共3页
文章使用典型仿真数据引出Logistic回归的非平衡数据问题;基于重构训练集思想,提出在不改变Logistic基本求解算法下的"小类配平"和"大类配平"解决方法,实验验证这两种解决方法的有效性,论述这两类方法的优缺点;理... 文章使用典型仿真数据引出Logistic回归的非平衡数据问题;基于重构训练集思想,提出在不改变Logistic基本求解算法下的"小类配平"和"大类配平"解决方法,实验验证这两种解决方法的有效性,论述这两类方法的优缺点;理论分析Logistic回归的非平衡数据问题存在的原因及"小类配平"和"大类配平"法的合理性。 展开更多
关键词 LOGISTIC回归 非平衡数据 极大似然法 训练集重构
下载PDF
优化的支持向量机集成分类器在非平衡数据集分类中的应用 被引量:9
17
作者 章少平 梁雪春 《计算机应用》 CSCD 北大核心 2015年第5期1306-1309,共4页
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应... 传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果。对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的boot Num取值对分类器性能效果的影响。 展开更多
关键词 非平衡数据 分类算法 支持向量机 集成分类器
下载PDF
结合样本局部密度的非平衡数据集成分类算法 被引量:10
18
作者 杨浩 陈红梅 《计算机科学与探索》 CSCD 北大核心 2020年第2期274-284,共11页
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MO... 传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。 展开更多
关键词 非平衡数据 近邻计算策略 集成学习 过采样
下载PDF
Logistic模型对非平衡数据的敏感性:测度、修正与比较 被引量:9
19
作者 魏瑾瑞 吕晓云 《统计研究》 CSSCI 北大核心 2016年第2期79-85,共7页
本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正... 本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优。3AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它不能有效区分四种修正方法的优劣,而且修正前后的差异亦不能辨。 展开更多
关键词 LOGISTIC模型 非平衡数据 ROC曲线 AUC值 平衡化的五折交叉验证
下载PDF
外资保险公司的经营效率研究——基于公司层面非平衡数据的入世效应分析 被引量:7
20
作者 朱铭来 李新平 《江西财经大学学报》 CSSCI 北大核心 2012年第1期67-72,共6页
尽管外资保险公司保费收入、资产规模高速增长,但其所占市场份额并未相应提高,同时还存在外资寿险公司退出市场的问题。基于公司非平衡数据,应用数据包络分析(DEA)和面板数据计量模型相结合的方法,从经营效率视角对外资保险公司的入世... 尽管外资保险公司保费收入、资产规模高速增长,但其所占市场份额并未相应提高,同时还存在外资寿险公司退出市场的问题。基于公司非平衡数据,应用数据包络分析(DEA)和面板数据计量模型相结合的方法,从经营效率视角对外资保险公司的入世效应进行分析,探讨导致其经营效率不高的原因。研究表明:无论是外资寿险公司还是外资财险公司,提高公司的员工劳动生产率有助于其经营效率的提高。全面入世对外资寿险公司的经营效率有显著负影响,对外资财险公司经营效率的影响不显著。 展开更多
关键词 外资保险公司 经营效率 入世效应 非平衡数据
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部