期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于边界样本欠取样支持向量机的电信用户欠费分类算法 被引量:1
1
作者 李创创 卢光跃 王航龙 《电信科学》 北大核心 2017年第9期85-91,共7页
电信用户欠费预测是一个不平衡数据集分类问题。针对传统支持向量机(SVM)对不均衡数据集中少数类检测精度低的问题,基于分类平面由边界样本的位置决定,提出了一种通过删除部分多数类边界样本的方法来改善传统SVM算法的不足,将该算法和... 电信用户欠费预测是一个不平衡数据集分类问题。针对传统支持向量机(SVM)对不均衡数据集中少数类检测精度低的问题,基于分类平面由边界样本的位置决定,提出了一种通过删除部分多数类边界样本的方法来改善传统SVM算法的不足,将该算法和其他几种算法在电信数据和多个不平衡UCI数据集上的实验结果进行对比,验证所提算法对少数类的检测精度和总体评价指标都有所提高。 展开更多
关键词 不均衡 SVM 边界 欠取样
下载PDF
谱聚类欠取样下自编码网络不平衡数据挖掘 被引量:1
2
作者 王舒梵 严涛 姜新盈 《计算机系统应用》 2021年第10期331-335,共5页
不平衡数据集的应用领域日益广泛,需求也越来越高,为提升整体数据集的分类准确率,以谱聚类欠取样为前提条件,构建一种自编码网络不平衡数据挖掘方法.把聚类问题转换成无向图多路径划分问题,通过无向图与标准化处理完成谱聚类,经过有选... 不平衡数据集的应用领域日益广泛,需求也越来越高,为提升整体数据集的分类准确率,以谱聚类欠取样为前提条件,构建一种自编码网络不平衡数据挖掘方法.把聚类问题转换成无向图多路径划分问题,通过无向图与标准化处理完成谱聚类,经过有选择地欠取样处理多数类数据集,获取分类边界偏移量,利用学习过程是无监督学习的自编码网络,升、降维数据,获取各维度隐藏特征,实现各层面的数据高效表示学习,根据最大均值差异与预设阈值的对比结果,调整自编码网络,基于得到的分类界面,完成不平衡数据挖掘.选用具有不同实际应用背景的UCI数据集,从中抽取10组数据作为测试集,经谱聚类欠取样处理与模拟实验,发现所提方法大幅提升少数类分类精度与整体挖掘性能,具有较好的适用性与可行性. 展开更多
关键词 谱聚类 欠取样 自编码网络 不平衡数据 分类边界 聚类中心
下载PDF
基于谱聚类欠取样的不均衡数据SVM分类算法 被引量:28
3
作者 陶新民 张冬雪 +1 位作者 郝思媛 付丹丹 《控制与决策》 EI CSCD 北大核心 2012年第12期1761-1768,1775,共9页
提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实... 提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实验中将该算法同其他不均衡数据预处理方法相比较,结果表明该算法不仅能有效提高SVM算法对少数类的分类性能,而且总体分类性能及运行效率都有明显提高. 展开更多
关键词 不均衡数据 SVM算法 谱聚类 欠取样
原文传递
基于样本特性欠取样的不均衡支持向量机 被引量:25
4
作者 陶新民 郝思媛 +1 位作者 张冬雪 李震 《控制与决策》 EI CSCD 北大核心 2013年第7期978-984,共7页
针对传统支持向量机在数据失衡的情况下分类效果很不理想的问题,提出一种基于样本特性欠取样的不均衡SVM分类算法.该算法首先在核空间中依据样本信息量选择一定比例的靠近不均衡分类界面的多数类样本;然后根据样本密度信息选择最具有代... 针对传统支持向量机在数据失衡的情况下分类效果很不理想的问题,提出一种基于样本特性欠取样的不均衡SVM分类算法.该算法首先在核空间中依据样本信息量选择一定比例的靠近不均衡分类界面的多数类样本;然后根据样本密度信息选择最具有代表性的均衡多数类样本点,在减少多数类样本的同时使分类界面向多数类方向偏移.实验结果表明,所提出的算法与其他不均衡数据预处理方法相比,能有效提高SVM算法在失衡数据中少数类的分类性能、总体分类性能和鲁棒性. 展开更多
关键词 不均衡数据 支持向量机 样本特性 欠取样
原文传递
不均衡数据混合取样分类算法 被引量:6
5
作者 杜红乐 张燕 《燕山大学学报》 CAS 北大核心 2015年第2期158-164,共7页
针对不均衡数据分类决策面偏移导致少数类识别率较低的问题,提出一种混合取样算法.首先计算类样本数的比值K;然后分别在多数类和少数类中随机选取一个样本,计算该样本的K-1近邻,以K个样本的中心作为新样本;再对剩余的样本重复上面操作,... 针对不均衡数据分类决策面偏移导致少数类识别率较低的问题,提出一种混合取样算法.首先计算类样本数的比值K;然后分别在多数类和少数类中随机选取一个样本,计算该样本的K-1近邻,以K个样本的中心作为新样本;再对剩余的样本重复上面操作,直到所有样本都被处理;最后所得新样本与原少数类样本共同构成新的训练集.该算法在改变样本密度的同时保持了原样本的空间分布,实验结果表明该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能. 展开更多
关键词 支持向量机 取样 不均衡数据集 欠取样 K 近邻
下载PDF
核聚类集成失衡数据SVM算法 被引量:5
6
作者 陶新民 郝思媛 +1 位作者 张冬雪 徐鹏 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2013年第3期381-388,共8页
针对传统SVM算法在失衡数据集下的分类性能不理想的问题,提出一种基于核聚类集成SVM算法.该算法首先在核空间中对多数类样本集进行聚类,然后随机选择出具有代表意义的聚类信息点,实现在减少多数类样本数的同时将分类界面向多数类样本方... 针对传统SVM算法在失衡数据集下的分类性能不理想的问题,提出一种基于核聚类集成SVM算法.该算法首先在核空间中对多数类样本集进行聚类,然后随机选择出具有代表意义的聚类信息点,实现在减少多数类样本数的同时将分类界面向多数类样本方向偏移.并利用AdaBoost集成手段对基于核聚类的欠取样SVM算法进行集成,最终提高SVM算法在失衡数据下的泛化性能.将提出的算法同其他失衡数据预处理集成方法进行比较,实验结果表明该算法能够有效提高SVM算法在失衡数据中少数类的分类性能,且总体分类性能及运行效率都有明显提高. 展开更多
关键词 失衡数据 SVM算法 ADABOOST 核聚类 欠取样
下载PDF
用于不均衡数据集的挖掘方法 被引量:5
7
作者 赵凤英 王崇骏 陈世福 《计算机科学》 CSCD 北大核心 2007年第9期139-141,共3页
传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本... 传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本文对相关的研究做了综述。 展开更多
关键词 不均衡数据集 取样 欠取样 代价敏感学习
下载PDF
基于核空间中K-近邻的不均衡数据算法 被引量:9
8
作者 杜红乐 《计算机科学与探索》 CSCD 北大核心 2015年第7期869-876,共8页
为了解决传统分类器的过拟合现象,从而增强分类性能,提出了一种基于核空间中K-近邻算法的混合取样的不均衡数据集分类算法。该算法首先在核空间上计算样本与相反类样本的k个近邻,以及类样本间的平均距离,即两个类中心间的距离;然后依据... 为了解决传统分类器的过拟合现象,从而增强分类性能,提出了一种基于核空间中K-近邻算法的混合取样的不均衡数据集分类算法。该算法首先在核空间上计算样本与相反类样本的k个近邻,以及类样本间的平均距离,即两个类中心间的距离;然后依据控制参数删除远离分类边界的样本,再对少数类利用SMOTE算法插入样本;最后在新的训练集上确定最终决策函数。在人工数据集和4组UCI数据集上进行了实验,结果表明了该算法对不均衡数据集进行降维采样的有效性。 展开更多
关键词 支持向量机 不均衡数据 取样 欠取样 K-近邻
下载PDF
基于密度均衡的网络入侵检测 被引量:2
9
作者 张燕 杜红乐 李楠 《微型电脑应用》 2016年第8期36-39,共4页
针对网络入侵检测中数据集的不均衡性和异构性,提出了一种基于密度均衡的网络入侵检测算法,利用异构距离计算类密度,依据类密度之间的关系把多数类数据集划分为多个子集;然后依据每个子集密度与少数类密度之间的关系动态计算重取样后样... 针对网络入侵检测中数据集的不均衡性和异构性,提出了一种基于密度均衡的网络入侵检测算法,利用异构距离计算类密度,依据类密度之间的关系把多数类数据集划分为多个子集;然后依据每个子集密度与少数类密度之间的关系动态计算重取样后样本数目,利用K-means聚类算法对每个子类进行重取样,实现数据集的均衡化处理。最后在KDDCUP99数据集上进行仿真实验,实验结果表明,该算法提高支持向量机对少数类的分类性能,同时提高运行效率。 展开更多
关键词 支持向量机 不均衡数据 欠取样 K-均值聚类
下载PDF
权重润饰和改进的分类对不平衡数据的处理 被引量:1
10
作者 王和勇 《计算机应用与软件》 CSCD 2009年第8期144-146,161,共4页
不平衡数据集是指某类样本数量明显少于其它类样本数量的数据集,传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对文本数据的不平衡情况,首先采用权重润饰(Weight-retouching)的方法进行特征... 不平衡数据集是指某类样本数量明显少于其它类样本数量的数据集,传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对文本数据的不平衡情况,首先采用权重润饰(Weight-retouching)的方法进行特征提取,然后采用欠取样(Under sampling)的支持向量机SVM(Support Vector Machine)方法进行文本分类。通过实验发现,使用权重润饰和欠取样的SVM方法可以提高处理不平衡数据的分类精度。 展开更多
关键词 文本分类 机器学习 权重润饰 欠取样
下载PDF
基于二次SVM的不均衡数据算法
11
作者 张燕 《商洛学院学报》 2014年第4期38-41,61,共5页
为减少不均衡数据对支持向量机分类性能的影响,提出一种基于二次支持向量机的欠取样分类算法,该算法依据样本的分类超平面贡献大小对多数类样本进行欠取样,并对少数类样本进行过取样,重构训练数据集。该算法能够删除样本中的噪声数据,... 为减少不均衡数据对支持向量机分类性能的影响,提出一种基于二次支持向量机的欠取样分类算法,该算法依据样本的分类超平面贡献大小对多数类样本进行欠取样,并对少数类样本进行过取样,重构训练数据集。该算法能够删除样本中的噪声数据,用控制参数控制删除样本的规模,实验表明,该算法能够提高支持向量机在不均衡数据集下的分类性能。 展开更多
关键词 支持向量机 不均衡数据 欠取样 分类超平面
下载PDF
基于异构距离的集成分类算法研究 被引量:13
12
作者 张燕 杜红乐 《智能系统学报》 CSCD 北大核心 2019年第4期733-742,共10页
针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚... 针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚类算法对数据集进行均衡处理,获得多个均衡的数据子集,并构建多个子分类器,采用异构距离计算异构数据集中2个样本之间的距离,提高KNN算法的分类准性能,然后用Adaboost算法进行迭代获得最终分类器。用8组UCI数据集来评估算法在不均衡数据集下的分类性能,Adaboost实验结果表明,相比Adaboost等算法,F1值、AUC、G-mean等指标在异构不均衡数据集上的分类性能都有相应的提高。 展开更多
关键词 异构数据 不均衡数据 异构距离 集成学习 取样 欠取样
下载PDF
密度不均衡数据分类算法 被引量:8
13
作者 杜红乐 张燕 《西华大学学报(自然科学版)》 CAS 2015年第5期16-23,74,共9页
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数,然后利用K-means聚类算法对多数类样本进行聚类,用... 针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数,然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集,最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。 展开更多
关键词 支持向量机 不均衡数据集 样本密度 欠取样 K-近邻
下载PDF
用A/D变换器实现频率变换
14
作者 Derek Redmayne 彭京湘 《电子产品世界》 2001年第20期35-56,共2页
关键词 变换器 转换器 欠取样 A/D 频率变换 模拟滤波器
下载PDF
数字存储示波器主要术语
15
作者 林詠 《电世界》 2001年第7期41-41,共1页
关键词 数字存储示波器 混叠失真 欠取样 取样
下载PDF
新型混合重取样算法在岩爆预测中的应用
16
作者 谷琼 蔡之华 +1 位作者 朱莉 王贤明 《地球科学(中国地质大学学报)》 EI CAS CSCD 北大核心 2010年第2期311-316,共6页
针对岩爆现象发生的不均衡及发生机理受多因素影响的问题,在分析重取样技术的基础上,设计并实现了自适应选择近邻的混合重取样算法,并将其用于岩爆危险性预测.该方法结合过取样和欠取样方法的优势,改进了SMOTE过取样算法在产生合成样本... 针对岩爆现象发生的不均衡及发生机理受多因素影响的问题,在分析重取样技术的基础上,设计并实现了自适应选择近邻的混合重取样算法,并将其用于岩爆危险性预测.该方法结合过取样和欠取样方法的优势,改进了SMOTE过取样算法在产生合成样本过程中存在的盲目性及只能复制生成数值属性的问题,新算法能根据实例样本集内部分布的真实特性,自适应调整近邻选择策略,对不同属性的数据采取不同的复制方法生成新的少数类实例,控制和提高合成样本的质量;并通过对合成之后的数据集,用改进的邻域清理方法进行适当程度欠取样,去掉多数类中的冗余实例和边界上的噪音数据,减少其规模,在一定程度上达到相对均衡,从而,可有效地处理非均衡数据分类问题,提高分类器的性能.该算法在VCR采场岩爆实例上进行实验,预测的结果与实际情况完全一致,表明在工程实例岩爆危险性实例数据非均衡情况下实施混合重取样方案是可行的,预测准确率高,具有良好的工程应用前景.采用该方法可找到岩爆发生的主控因素,为深部开采工程的合理设计与安全施工提供科学依据. 展开更多
关键词 岩爆 灾害 不均衡数据集 预测 合成少数类过取样 欠取样
原文传递
面向贯序不均衡分类的粒度极限学习机 被引量:33
17
作者 毛文涛 田杨阳 +1 位作者 王金婉 何玲 《控制与决策》 EI CSCD 北大核心 2016年第12期2147-2154,共8页
针对现有算法对贯序到达的密度型不均衡数据分类效果不佳的缺陷,提出一种基于粒度划分的在线贯序极限学习机算法.离线阶段,根据数据分布特性对多类样本进行粒度划分,用粒心代替原有样本,建立初始模型;在线阶段,根据更新后的分布特性对... 针对现有算法对贯序到达的密度型不均衡数据分类效果不佳的缺陷,提出一种基于粒度划分的在线贯序极限学习机算法.离线阶段,根据数据分布特性对多类样本进行粒度划分,用粒心代替原有样本,建立初始模型;在线阶段,根据更新后的分布特性对多类边界数据进行二次粒度划分,替换原有边界数据,并动态更新网络权值.理论分析证明该算法存在信息损失上界.实验结果表明,该算法能有效提高贯序不均衡数据上的整体泛化性能和分类效率. 展开更多
关键词 极限学习机 粒度划分 贯序不均衡数据 欠取样
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部