期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
基于SHAP值的类重叠识别方法对FSVM的改进
1
作者 曹玉茹 高洋洋 李祈萱 《微电子学与计算机》 2023年第10期9-19,共11页
在分类问题中,类重叠现象会大大影响分类模型的效果,针对类重叠样本的识别问题,提出了一种基于SHAP值的类重叠识别新方法,基于SHAP值构造出样本在所属类中的分类作用能力隶属属性,对类间重叠样本进行有效识别,然后利用仿真实验验证了基... 在分类问题中,类重叠现象会大大影响分类模型的效果,针对类重叠样本的识别问题,提出了一种基于SHAP值的类重叠识别新方法,基于SHAP值构造出样本在所属类中的分类作用能力隶属属性,对类间重叠样本进行有效识别,然后利用仿真实验验证了基于SHAP的类重叠识别方法的适用性;将样本的分类作用能力归一化后构造出样本隶属度度量,并将该隶属度应用于模糊支持向量机(Fuzzy Support Vector Machine,FSVM)算法后得到FSVM_SHAP模型,通过在多个经典二分类数据集上实验得到了较好的效果,体现了该模型的有效性. 展开更多
关键词 二分 类重叠 SHAP模型 隶属度 FSVM
下载PDF
分类中的类重叠问题及其处理方法研究 被引量:9
2
作者 熊海涛 吴俊杰 +1 位作者 刘洪甫 刘鲁 《管理科学学报》 CSSCI 北大核心 2013年第4期8-21,共14页
类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的... 类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的重叠样本识别,对类重叠问题及其与类不均衡问题的相互影响进行了系统研究.在真实数据上采用五种分类器的实验结果表明:1)多数情况下"分隔法"是表现最佳的类重叠学习算法;2)分隔法通常对基于分界面而非规则的分类器更为有效;3)分隔法在类不均衡问题中表现很好,当基础分类器为支持向量机时尤为突出.最后针对支持向量机的实验结果给出了理论分析. 展开更多
关键词 数据挖掘 类重叠 不均衡 支持向量数据描述
下载PDF
基于油中气体分析与类重叠特征的变压器分层故障诊断模型 被引量:7
3
作者 陈铁 冷昊伟 +1 位作者 李咸善 陈一夫 《中国电力》 CSCD 北大核心 2022年第7期22-32,41,共12页
油中溶解气体分析可以有效识别变压器放电故障与过热故障,为提高变压器故障诊断准确度,提出一种基于类重叠特征的变压器分层故障诊断方法。首先使用支持向量数据描述(SVDD)划分出变压器故障样本数据空间的重叠区域,选择类重叠率与类重... 油中溶解气体分析可以有效识别变压器放电故障与过热故障,为提高变压器故障诊断准确度,提出一种基于类重叠特征的变压器分层故障诊断方法。首先使用支持向量数据描述(SVDD)划分出变压器故障样本数据空间的重叠区域,选择类重叠率与类重叠度作为重叠特征,分别对类重叠程度和样本点重要性进行描述,然后以类重叠率为分层标准建立分层故障诊断模型,采用分隔训练法将各诊断层的样本集分开训练,针对分类难度较大的重叠区,基于类重叠度构造二分类模糊支持向量机(FSVM)进行故障诊断。实验结果表明,相比于其他模型,所提方法具有更高的准确度。 展开更多
关键词 变压器故障诊断 类重叠 分层诊断 支持向量数据描述 模糊支持向量机
下载PDF
从“乙类重叠式”到“甲类重叠式”
4
作者 刘艳生 《文教资料》 2013年第15期33-37,共5页
现代汉语动词重叠式有两类:"轻音式动词重叠"和"重音式动词重叠"。"轻音式动词重叠"表减量,"重音式动词重叠"表增量。我们把"轻音式动词重叠"叫做"甲类重叠式",把"重音式动词重叠"叫做"乙类重叠式"。"甲类重叠式"和... 现代汉语动词重叠式有两类:"轻音式动词重叠"和"重音式动词重叠"。"轻音式动词重叠"表减量,"重音式动词重叠"表增量。我们把"轻音式动词重叠"叫做"甲类重叠式",把"重音式动词重叠"叫做"乙类重叠式"。"甲类重叠式"和"乙类重叠式"看似毫不相关,然而我们认为从"乙类重叠式"到"甲类重叠式"源于认知心理学上的"图象——背衬"倒换。就AA式动词重叠式而言,"甲类重叠式"语义重心在左,表现为负向持续,中心与边缘结合紧密;"乙类重叠式"语义重心在右,表现为正向持续,中心与边缘结合不紧凑。在韵律节律上,"甲类重叠式"重叠部分表现出不同程度的弱化,"乙类重叠式"重叠部分弱化不明显。 展开更多
关键词 “甲类重叠式” “乙类重叠式” 象性 负向持续 正向持续
下载PDF
论汉语动词的“类重叠”
5
作者 袁庆德 李丽萍 《现代语文(下旬.语言研究)》 2016年第3期45-48,2,共4页
动词"类重叠"是"动词+同形借用量词"短语,是由"动词+一+同形借用量词"短语省略成的。以往学术界将动词"类重叠"与动词重叠相混淆,因而不能准确地分析和归纳动词"类重叠"的语法意义... 动词"类重叠"是"动词+同形借用量词"短语,是由"动词+一+同形借用量词"短语省略成的。以往学术界将动词"类重叠"与动词重叠相混淆,因而不能准确地分析和归纳动词"类重叠"的语法意义和语用功能,不能合理地解释动词"类重叠"形成的机制,因而需要我们在前人研究成果的基础上进一步加以研究。 展开更多
关键词 动词 重叠 类重叠 理据
下载PDF
可缓解类重叠问题的跨版本软件缺陷预测方法 被引量:2
6
作者 曲豫宾 陈翔 李龙 《吉林大学学报(理学版)》 CAS 北大核心 2021年第2期372-378,共7页
针对软件缺陷预测过程中未充分使用源代码语义特征以及训练数据集中的类重叠问题,提出一种面向类重叠的跨版本软件缺陷深度特征学习方法.该方法采用混合式最近邻清理策略缓解深度学习语义特征中存在的类重叠问题.在PROMISE公开数据集上... 针对软件缺陷预测过程中未充分使用源代码语义特征以及训练数据集中的类重叠问题,提出一种面向类重叠的跨版本软件缺陷深度特征学习方法.该方法采用混合式最近邻清理策略缓解深度学习语义特征中存在的类重叠问题.在PROMISE公开数据集上进行测试的结果表明,该策略能提升基于深度语义学习的软件缺陷预测性能,分类性能最多在中值上提升14.8%.实验结果表明,在跨版本深度缺陷预测问题中可采用混合式最近邻清理策略缓解类重叠问题. 展开更多
关键词 软件缺陷预测 深度学习 类重叠 语义特征
下载PDF
基于类重叠度欠采样的不平衡模糊多类支持向量机 被引量:24
7
作者 吴园园 申立勇 《中国科学院大学学报(中英文)》 CSCD 北大核心 2018年第4期536-543,共8页
传统的欠采样方法容易丢失重要的样本信息,且其实验结果的稳定性较差。针对上述问题,提出一种基于类重叠度欠采样的不平衡数据模糊多类支持向量机算法。该算法首先采用LOF局部离群点因子和箱线图的方法清洗训练数据集中的噪声样本,然后... 传统的欠采样方法容易丢失重要的样本信息,且其实验结果的稳定性较差。针对上述问题,提出一种基于类重叠度欠采样的不平衡数据模糊多类支持向量机算法。该算法首先采用LOF局部离群点因子和箱线图的方法清洗训练数据集中的噪声样本,然后根据类重叠度抽取对分类起关键作用的支持向量,并且将代表每个样本点重要程度的类重叠度作为隶属度值,构造模糊多类支持向量机。实验结果表明,该算法克服了随机欠采样的支持向量机容易丢失重要样本信息和实验结果不稳定的缺点,且很好地提升了支持向量机在不平衡且含噪声的数据集上的分类精度,并保持较高的计算效率。 展开更多
关键词 支持向量机 模糊多支持向量机 噪声 不平衡数据 类重叠
下载PDF
基于类重叠度区分的大规模云平台任务终止状态预测
8
作者 代丽萍 王敬雄 +2 位作者 李为丽 刘春红 程渤 《中国传媒大学学报(自然科学版)》 2021年第2期44-53,共10页
大规模云平台任务终止状态的预测是云资源调度策略优化的关键步骤。本文以Google云平台的计算调度系统Borg为对象进行研究,针对任务的各种终止状态极度不均衡和类重叠的问题,提出了一种类重叠度区分的自定义步长‐梯度提升决策树(SP‐GB... 大规模云平台任务终止状态的预测是云资源调度策略优化的关键步骤。本文以Google云平台的计算调度系统Borg为对象进行研究,针对任务的各种终止状态极度不均衡和类重叠的问题,提出了一种类重叠度区分的自定义步长‐梯度提升决策树(SP‐GBDT)任务终止状态预测方法,对任务终止状态进行细粒度的多分类预测,提高少数类任务状态的预测准确率。首先将终止状态的多个类别拆分成若干个二类组合,通过支持向量数据描述模型(SVDD)筛选出类重叠度较低的最优二类组合。然后,分别对最优的二类组合进行扩展采样比例的自定义步长欠采样。最后构建梯度提升决策树模型,将欠采样之后的数据进行多分类。在Google云平台的运行监控日志数据集上进行验证,通过对比预测结果和预测过程的可解释性分析,SP‐GBDT模型能够很好地降低数据集的不均衡比例以及类重叠的程度。与决策树和随机森林等常用多分类预测方法相比,所提算法的F1‐score分别提高了30.39%和18.26%。 展开更多
关键词 终止状态 不均衡多分 类重叠 欠采样 可解释性
下载PDF
基于聚类和类重叠分析的近邻分类 被引量:2
9
作者 刘杜钢 《计算机系统应用》 2015年第9期1-8,共8页
k近邻分类(k NN)是一种简单而有效的非参数分类算法,但存在着参数需要人工确定,没有显式构建分类模型造成存储空间大、分类效率低,且易受到"维灾"效应影响等缺点.针对这些缺点,提出一种高效的近邻分类新方法,构造了两个新的... k近邻分类(k NN)是一种简单而有效的非参数分类算法,但存在着参数需要人工确定,没有显式构建分类模型造成存储空间大、分类效率低,且易受到"维灾"效应影响等缺点.针对这些缺点,提出一种高效的近邻分类新方法,构造了两个新的近邻分类器.新方法使用由K均值聚类产生的优化的簇原型集合为分类模型,减少了存储空间的同时提高了分类效率;提出三种类重叠分析策略并引入模糊基准度量以减轻维灾影响.以该分类模型学习方法为基础,提出一种新的k NN分类器和组合朴素贝叶斯的新分类器,算法涉及的参数都可以自动确定.在人工和现实数据集上进行的实验表明,新分类器具有良好的分类效率和分类准确率. 展开更多
关键词 近邻分 K均值聚 簇原型 类重叠分析 模糊基准度量
下载PDF
面向类重叠日志的一致性异常检测模型
10
作者 吕宗平 梁孟孟 +2 位作者 顾兆军 刘春波 王志 《计算机应用与软件》 2024年第8期367-375,共9页
在系统日志异常检测中,决策边界出现的类重叠问题将导致传统分类器很难实现正确分类。为避免耗时的预处理技术或依赖特定算法,提出一致性异常检测模型。该模型计算样本与不同类别的隶属度,根据传统分类器的准确率差值选择最佳模糊度分... 在系统日志异常检测中,决策边界出现的类重叠问题将导致传统分类器很难实现正确分类。为避免耗时的预处理技术或依赖特定算法,提出一致性异常检测模型。该模型计算样本与不同类别的隶属度,根据传统分类器的准确率差值选择最佳模糊度分离出类重叠日志;通过集成分类器的不一致性度量函数得到p值,根据预设置信度得到类重叠日志标签。实验结果表明,相比传统分类器,该模型的召回率和F值等平均提高10百分点左右,验证了该模型在处理类重叠问题的有效性。 展开更多
关键词 异常检测 类重叠 一致性检测 模糊度 置信度
下载PDF
基于局部线性重叠聚类算法的网络攻击溯源分析方法
11
作者 王亮 钟夫 黄健 《通信技术》 2024年第1期80-88,共9页
科技的进步使得不法组织可以利用各种先进的攻击手段,对特定目标进行隐匿的、长期持续性的网络攻击。当前大部分研究基于大数据、机器学习和图谱的方法进行攻击溯源检测,从而还原攻击全貌,但其存在检测识别正确率低、算力开销大等问题... 科技的进步使得不法组织可以利用各种先进的攻击手段,对特定目标进行隐匿的、长期持续性的网络攻击。当前大部分研究基于大数据、机器学习和图谱的方法进行攻击溯源检测,从而还原攻击全貌,但其存在检测识别正确率低、算力开销大等问题。为此,提出了一种基于溯源图谱的网络攻击分析方法,利用安全产品日志中的攻击特征划分攻击社团,并结合资产和攻击信息的局部线性关系进行重叠聚类,从而还原攻击路径。该算法已应用于某企业安全运行监管系统,实践证明,其能够有效地溯源系统被入侵的过程与痕迹,改善网络安全威胁感知和预警能力。 展开更多
关键词 溯源图谱 攻击溯源 局部线性 重叠
下载PDF
面向ICS不平衡数据的重叠区混合采样方法
12
作者 高冰 顾兆军 +1 位作者 周景贤 隋翯 《计算机工程与应用》 CSCD 北大核心 2023年第19期305-315,共11页
工业控制系统异常检测面临着数据不平衡问题,其中,不平衡数据存在的类重叠现象加剧了分类器的检测难度。基于数据类别平衡或数据重叠检测的应对策略较常被采用,但这些策略方法存在着模型稳定性差或重叠识别率低等问题。对此,提出了一种... 工业控制系统异常检测面临着数据不平衡问题,其中,不平衡数据存在的类重叠现象加剧了分类器的检测难度。基于数据类别平衡或数据重叠检测的应对策略较常被采用,但这些策略方法存在着模型稳定性差或重叠识别率低等问题。对此,提出了一种面向重叠区域的混合采样方法:OverlapRHS。该方法利用支持向量数据描述分别在多数类和少数类样本上构建重叠检测模型,并通过将合成少数类与邻域清洗进行组合,对重叠数据区域内的样本施以混合采样。最后该方法与4种经典分类器结合,在4个公开的不平衡数据集上进行了测试,并与其他4种处理不平衡问题的采样方法进行了比较。实验结果表明,所提方法能够有效检测出不平衡数据集中的重叠数据,并通过高效且针对性强的数据混合采样改善了分类器的训练效果,提高了分类器对不平衡数据的异常检测性能,展现了较之于其他采样方法在不平衡数据处理上的显著优势。 展开更多
关键词 工业控制系统 不平衡数据 类重叠 支持向量数据描述 混合采样 异常检测
下载PDF
基于概率模型的重叠子空间聚类算法 被引量:6
13
作者 邱云飞 费博雯 刘大千 《模式识别与人工智能》 EI CSCD 北大核心 2017年第7期609-621,共13页
针对现有子空间聚类方法处理类簇间存在重叠时聚类准确率较低的问题,文中提出基于概率模型的重叠子空间聚类算法.首先采用混合范数的子空间表示方法将高维数据分割为若干个子空间.然后使用服从指数族分布的概率模型判断子空间内数据的... 针对现有子空间聚类方法处理类簇间存在重叠时聚类准确率较低的问题,文中提出基于概率模型的重叠子空间聚类算法.首先采用混合范数的子空间表示方法将高维数据分割为若干个子空间.然后使用服从指数族分布的概率模型判断子空间内数据的重叠部分,并将数据分配到正确的子空间内,进而得到聚类结果,在参数估计时利用交替最大化方法确定函数最优解.在人造数据集和UCI数据集上的测试实验表明,文中算法具有良好的聚类性能,适用于较大规模的数据集. 展开更多
关键词 重叠子空间聚 混合范数 子空间表示 概率模型 交替最大化
下载PDF
稀疏条件下的重叠子空间聚类算法 被引量:3
14
作者 邱云飞 费博雯 +1 位作者 刘大千 刘兴 《计算机应用研究》 CSCD 北大核心 2019年第3期657-662,共6页
现有子空间聚类算法不能很好地平衡子空间数据的稠密性和不同子空间数据稀疏性的关系,且无法处理数据的重叠问题。针对上述问题,提出一种稀疏条件下的重叠子空间聚类(OSCSC)算法。算法利用l1范数和Frobenius范数的混合范数表示方法建立... 现有子空间聚类算法不能很好地平衡子空间数据的稠密性和不同子空间数据稀疏性的关系,且无法处理数据的重叠问题。针对上述问题,提出一种稀疏条件下的重叠子空间聚类(OSCSC)算法。算法利用l1范数和Frobenius范数的混合范数表示方法建立子空间表示模型,并对l1范数正则项进行加权处理,提高不同子空间的稀疏性和同一子空间的稠密性;然后对划分好的子空间使用一种服从指数族分布的重叠概率模型进行二次校验,判断不同子空间数据的重叠情况,进一步提高聚类的准确率。在人造数据集和真实数据集上分别进行测试,实验结果表明,OSCSC算法能够获得良好的聚类结果。 展开更多
关键词 重叠子空间聚 混合范数 重叠概率模型 指数族分布
下载PDF
改进边界分类的Borderline-SMOTE过采样方法
15
作者 马贺 宋媚 祝义 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1003-1012,共10页
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新... 针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC(Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路. 展开更多
关键词 不平衡数据 边界样本 类重叠 Borderline-SMOTE 过采样
下载PDF
局部加权最小二乘回归的重叠子空间聚类算法 被引量:1
16
作者 邱云飞 费博雯 刘大千 《模式识别与人工智能》 EI CSCD 北大核心 2018年第2期114-122,共9页
针对大多数子空间聚类方法处理非线性数据时聚类效果不理想、不同子空间数据相似性较高及聚类发生错误时无法及时校验的问题,提出局部加权最小二乘回归的重叠子空间聚类算法.利用K近邻思想突出数据的局部信息,取代非线性数据结构,通过... 针对大多数子空间聚类方法处理非线性数据时聚类效果不理想、不同子空间数据相似性较高及聚类发生错误时无法及时校验的问题,提出局部加权最小二乘回归的重叠子空间聚类算法.利用K近邻思想突出数据的局部信息,取代非线性数据结构,通过高斯加权的方法选择最相似的近邻数据点,得到最优表示系数.然后使用重叠概率模型判断子空间内数据的重叠部分,再次校验聚类结果,提高聚类准确率.在人造数据集和真实数据集上分别进行测试,实验表明,文中算法能够取得较理想的聚类结果. 展开更多
关键词 重叠子空间聚 K近邻 高斯加权 重叠概率模型
下载PDF
一种新的属性图重叠聚类挖掘算法 被引量:1
17
作者 张昕尧 高宏 《智能计算机与应用》 2012年第5期27-30,共4页
属性图各节点附有的节点属性标签,为节点提供了更加丰富的信息,在数据挖掘应用,特别是数据聚类问题中如何有效利用这些丰富的信息,已经成为开展此类研究的研究目的。不同于传统图聚类,属性图上的聚类要同时考虑图的结构信息和节点的属... 属性图各节点附有的节点属性标签,为节点提供了更加丰富的信息,在数据挖掘应用,特别是数据聚类问题中如何有效利用这些丰富的信息,已经成为开展此类研究的研究目的。不同于传统图聚类,属性图上的聚类要同时考虑图的结构信息和节点的属性信息,因此如何平衡两者之间的关系,这是属性图聚类主要关注所在。目前已提出的属性图聚类算法,部分算法的效率很高,然而聚类质量较差,同时一些算法可以得到较好的聚类结构,然而算法消耗大量的系统资源,效率也较低。这些算法均没有考虑簇之间存在重叠的情况,这导致无法得到更高精度的聚类结构。因而提出一种属性图上的重叠聚类挖掘算法,实验表明,提出的算法可以得到更高的聚类精度,特别是可以提升聚类内部节点的属性相似度。 展开更多
关键词 属性图 重叠 模块度
下载PDF
基于分块后重叠K-means聚类的KNN分类算法 被引量:1
18
作者 秦亚辉 何利力 《工业控制计算机》 2017年第2期103-104,共2页
因为KNN最近邻算法的复杂度至少为线性,所以KNN算法在大数据环境下的计算量,以及所需要的硬件开销都面临挑战。提出一种新的KNN算法即在KNN分类前引入分块和聚类算法。具体描述为:对样本先随机进行分块,再在块上聚类,形成数目比较多的簇... 因为KNN最近邻算法的复杂度至少为线性,所以KNN算法在大数据环境下的计算量,以及所需要的硬件开销都面临挑战。提出一种新的KNN算法即在KNN分类前引入分块和聚类算法。具体描述为:对样本先随机进行分块,再在块上聚类,形成数目比较多的簇,但如果簇的数目过多虽然能提升计算速度,但是在分类时会影响分类的精确度,所以在很多簇的基础上再进行聚类,这样不仅速度大大提高,精确度也能提高,从而达到分类精确度的提高。最后在测试过程中找出与待测样本距离最短的块作为新的训练样本作为进行分类算法。 展开更多
关键词 KNN最邻近算法 数据分块 重叠
下载PDF
基于Spark的主动重叠K-means聚类算法 被引量:6
19
作者 柴变芳 李有熠 《微电子学与计算机》 2021年第1期70-76,共7页
别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在... 别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致聚类结果不稳定且收敛速度慢.为提高算法运行效率和结果稳定性,提出了一种主动重叠K-means聚类算法.其在各个分区上执行重叠K-means算法获得局部聚类中心,将结果汇总回收到Master节点,在Master节点运行重叠K-means算法聚合所有聚类中心,作为最终聚类中心;同时采用并行化主动选择策略获得更优的初始簇中心,提高算法准确性、收敛速度.实验结果表明,改进后的主动重叠聚类算法提高了算法准确性,降低了算法运行时间. 展开更多
关键词 Spark框架 主动学习 重叠 并行计算
下载PDF
基于改进Switching集成算法的具有类间重叠不平衡数据分类
20
作者 张建同 李君昌 +1 位作者 王来 樊重俊 《系统工程》 CSCD 北大核心 2024年第3期136-148,共13页
准确识别具有类间重叠的不平衡数据类别有着重要的理论意义与应用价值。首先,基于Switching集成学习框架,结合样本类间重叠度和邻域分布信息,定义了样本类别待转换的概率,进而提出了一种针对具有类间重叠的不平衡数据分类的集成学习算法... 准确识别具有类间重叠的不平衡数据类别有着重要的理论意义与应用价值。首先,基于Switching集成学习框架,结合样本类间重叠度和邻域分布信息,定义了样本类别待转换的概率,进而提出了一种针对具有类间重叠的不平衡数据分类的集成学习算法SwitchingHD。该方法在提升少数类样本可见性的同时,完全保留了少数类样本的真实信息,能有效克服已有Switching集成学习算法在具有类间重叠的不平衡数据分类中的局限性。其次,在3种评价指标下,对比了SwitchingHD与3类Switching集成算法及2类传统集成学习算法在33个具有类间重叠的不平衡数据集上的分类表现。再次,分析了6类集成学习算法分类效果对待转换样本比例和基分类器数目的敏感性,给出了最优待转换样本比例的范围及这两个因素的作用效果,分析表明SwitchingHD在AUC下的分类效果显著优于其他集成学习算法,针对具有类间重叠的不平衡数据分类问题具有有效性与优越性。最后,以某地区电信客户数据为例,进一步对比SwitchingHD与11种新颖集成学习算法识别潜在流失客户的效果。 展开更多
关键词 不平衡数据分 重叠 邻域分布 Switching算法
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部