期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
如何保障“保障房”——搜索匹配模型框架下的住房市场分类均衡和政策分析 被引量:2
1
作者 王之 张庆华 张博通 《经济学报》 2014年第1期18-35,共18页
日趋高涨的房价使"住房难"成为中国当下一个重大的民生问题。为了解决中低收入家庭住房难的问题,国家大力推行保障房政策。然而在保障房政策实施的过程中,很多高收入家庭通过瞒报自己的资产状况和收入水平"骗购"保... 日趋高涨的房价使"住房难"成为中国当下一个重大的民生问题。为了解决中低收入家庭住房难的问题,国家大力推行保障房政策。然而在保障房政策实施的过程中,很多高收入家庭通过瞒报自己的资产状况和收入水平"骗购"保障房。本文通过建立一个住房市场的搜索匹配模型来分析"骗购"背后的机制,并通过分析分类均衡(即高收入家户自发选择进入高档房屋市场而不进入保障房市场)实现的条件,给出政策建议。我们认为,降低保障房的广义上的"质量"(包括装修程度、交通便捷程度以及相应的配套设施的完善程度)或者拉大保障房质量与中高档房屋质量的差距,有利于分类均衡的实现,即有利于防止高收入阶层进入保障房市场从而保障"保障房"供给真正需要的人。 展开更多
关键词 保障房 搜索匹配 分类均衡 激励相容 住房政策
下载PDF
基于多分类不均衡支持向量机的制造型企业财务管理研究
2
作者 吴恒铭 张忠良 《中小企业管理与科技》 2024年第5期191-193,共3页
近年来,制造型企业在经营过程中面临的挑战日益增大。为帮助制造型企业探索科学合理的财务管理方法,更好地保障企业的健康经营和降低成本,论文首先利用哈夫曼树将多分类不均衡企业数据分解为一系列相对平衡的二分类子问题,接着以支持向... 近年来,制造型企业在经营过程中面临的挑战日益增大。为帮助制造型企业探索科学合理的财务管理方法,更好地保障企业的健康经营和降低成本,论文首先利用哈夫曼树将多分类不均衡企业数据分解为一系列相对平衡的二分类子问题,接着以支持向量机为分类器构建模型,然后,采用算术优化算法进行模型参数寻优。结果表明,发展能力、经营能力、偿债能力对企业的财务状况影响较大。最后,论文基于结果对企业提出相关管理建议。 展开更多
关键词 制造型企业 分类均衡数据 支持向量机 财务管理
下载PDF
电子商务中基于非均衡数据分类和词性分析的意见挖掘研究 被引量:10
3
作者 王刚 王珏 杨善林 《情报学报》 CSSCI 北大核心 2014年第3期313-325,共13页
随着电子商务的不断普及,网络商品评论作为消费者了解网上销售商品质量的一个重要途径,已受到越来越多的重视,并且已提出很多意见挖掘方法来帮助消费者利用这些数据。但目前研究对网络商品评论的非均衡分布特性还较少关注,为此,本... 随着电子商务的不断普及,网络商品评论作为消费者了解网上销售商品质量的一个重要途径,已受到越来越多的重视,并且已提出很多意见挖掘方法来帮助消费者利用这些数据。但目前研究对网络商品评论的非均衡分布特性还较少关注,为此,本文提出基于非均衡数据分类和词性分析的意见挖掘方法。该方法综合基于情感知识和机器学习两种意见挖掘方法,首先,分析电子商务评论的语言特征,对电子商务评论中词语的词性进行分析,提出“留词性”和“去词性”两种分析方法;其次,根据电子商务意见挖掘数据不均衡分布的特征,提出基于非均衡数据分类的意见挖掘方法。最后,以携程网、京东商城和当当网三个不同电子商务网站的用户评论为语料库,对本文提出的方法进行检验,实验结果验证了本文提出的基于非均衡数据分类和词性分析的意见挖掘方法的有效性,并且采用去词性分析方法时,Random Subspace在所有测试集上均取得了最好的分类结果。 展开更多
关键词 意见挖掘 均衡数据分类 词性分析 电子商务
下载PDF
基于差异度的不均衡电信客户数据分类方法 被引量:11
4
作者 王林 郭娜娜 《计算机应用》 CSCD 北大核心 2017年第4期1032-1037,共6页
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优... 针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。 展开更多
关键词 客户流失预测 均衡数据分类 样本子集优化 原型选择 差异度转化
下载PDF
基于决策准则优化的不均衡数据分类 被引量:2
5
作者 曹鹏 栗伟 赵大哲 《小型微型计算机系统》 CSCD 北大核心 2014年第5期961-966,共6页
现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(... 现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(二类)或错分代价参数(多类)进行优化,得到最佳的分类决策准则;同时为了提高分类的泛化性,提出一种自适应随机子空间组合分类算法,增强基分类器之间的差异性,避免分类器学习和决策准则优化的过拟合,并可自动获得基分类器的最佳数量.通过大量UCI数据集的实验验证表明,与其它同类算法相比,该算法在精度和效率上都具有更好的处理不均衡数据的优势. 展开更多
关键词 均衡数据分类 代价敏感学习 组合分类 随机子空间
下载PDF
新兴技术识别中的不均衡分类研究--基于代价敏感的随机森林算法 被引量:9
6
作者 卢小宾 张杨燚 +1 位作者 杨冠灿 行佳鑫 《情报学报》 CSSCI CSCD 北大核心 2022年第10期1059-1070,共12页
基于大规模专利数据和专利特征指标开展自动化的前瞻性预测已逐渐成为新兴技术识别的研究重点,机器学习方法的引入也让海量技术发明涌现为新兴技术这一小概率事件是一种典型的不均衡分类问题的本质受到关注。本研究目标在于通过优化分... 基于大规模专利数据和专利特征指标开展自动化的前瞻性预测已逐渐成为新兴技术识别的研究重点,机器学习方法的引入也让海量技术发明涌现为新兴技术这一小概率事件是一种典型的不均衡分类问题的本质受到关注。本研究目标在于通过优化分类策略改善新兴技术识别中不均衡数据集造成的分类偏向多数类别的识别效果,提出了综合数据、算法和评估三个层面的新兴技术识别不均衡分类优化框架,并以预测癌症药物领域专利是否有成为新兴技术潜质的二分类场景为例开展实证分析。具体改进之处在于:数据层面采纳渐进式重采样思路;算法层面构建代价敏感的随机森林;评估层面引入代价敏感思想,探究在缺乏专家经验时的代价矩阵验证方式。研究结果表明,基于1∶2均衡比例随机欠采样、以ROC-Youden指数阈值代价矩阵构建的代价敏感随机森林在对应的新兴技术识别目标中能正确预测出82.8%的新兴技术和81.6%的普通技术,显著优于本文对照组及现有相关成果,对未来深入挖掘新兴技术识别中不均衡分类问题的本质具有参考价值。 展开更多
关键词 新兴技术识别 均衡分类 代价敏感 随机森林 渐进式重采样
下载PDF
基于优化LM模糊神经网络的不均衡林业信息文本分类算法 被引量:4
7
作者 陈宇 许莉薇 《中南林业科技大学学报》 CAS CSCD 北大核心 2015年第4期27-32,59,共7页
为解决不均衡林业信息文本分类中少数类分类正确率低问题,提出了一种基于优化LM模糊神经网络的不均衡林业信息文本分类算法。在阐述优化LM模糊神经网络算法原理的基础上,提取不均衡林业信息文本特征矩阵训练分类器的各项参数,实现对不... 为解决不均衡林业信息文本分类中少数类分类正确率低问题,提出了一种基于优化LM模糊神经网络的不均衡林业信息文本分类算法。在阐述优化LM模糊神经网络算法原理的基础上,提取不均衡林业信息文本特征矩阵训练分类器的各项参数,实现对不均衡林业信息文本的精准与快速分类。实验结果表明该算法对少数类辨识准确率高,优于神经网络分类法以及SVM算法、模糊神经网络算法,为不均衡林业信息文本的分类提供了新思路。 展开更多
关键词 均衡文本分类算法 均衡林业信息文本分类 优化LM模糊神经网络 分类
下载PDF
基于Lasso和构造性覆盖算法的不均衡数据分类方法 被引量:2
8
作者 蒋溢 伍书平 +1 位作者 胡昆 龙林波 《计算机应用》 CSCD 北大核心 2023年第4期1086-1093,共8页
针对机器学习分类算法在不均衡数据分类问题中对少数类样本识别能力不足的问题,以电信客户流失场景为例,提出一种不均衡数据分类方法 L-CCSmote(Lasso Constructive Covering Smote)。首先,通过套索回归(Lasso)提取流失用户特征以优化... 针对机器学习分类算法在不均衡数据分类问题中对少数类样本识别能力不足的问题,以电信客户流失场景为例,提出一种不均衡数据分类方法 L-CCSmote(Lasso Constructive Covering Smote)。首先,通过套索回归(Lasso)提取流失用户特征以优化模型输入;然后,通过构造性覆盖算法(CCA)建立神经网络生成符合样本整体分布的覆盖;最后,进一步提出单样本覆盖策略、样本多样性策略和样本密度峰值策略,通过以上策略混合采样以平衡数据。选用了KEEL数据库中的13个不均衡数据集和2个脱敏电信客户数据集,分别在逻辑回归(LR)和支持向量机(SVM)分类算法上对该方法进行验证。在LR分类算法上,与SMOTE-Enn(Synthetic Minority Oversampling TEchnique Edited nearest neighbor)相比,所提方法的平均几何平均值(G-MEAN)提升了2.32%;在SVM分类算法上,与Borderline-SMOTE(Borderline Synthetic Minority Oversampling Technique Edited)相比,所提方法的平均G-MEAN提升了2.44%。实验结果表明,所提方法能解决类别偏斜分布影响分类的问题,且对于稀有类的识别能力优于经典平衡数据方法。 展开更多
关键词 Lasso 构造性覆盖算法 均衡数据分类 客户流失预测 混合采样
下载PDF
中医临床不均衡数据疾病分类方法研究 被引量:3
9
作者 潘主强 张林 +2 位作者 张磊 李国正 颜仕星 《智能系统学报》 CSCD 北大核心 2017年第6期848-856,共9页
基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方... 基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方式尽可能地反映原始数据分布,然后结合集成学习、预测风险标准提高不均衡的分类性能并进行特征选择。在中医临床采集的经络电阻数据上的实验结果表明,该算法改善了曲线下面积并且选择的特征也符合中医学相关理论。 展开更多
关键词 中医临床 均衡数据分类 原始数据分布 特征选择
下载PDF
最小二乘支持向量机的一种非均衡数据分类算法 被引量:3
10
作者 赵会 黄景涛 谈书才 《微电子学与计算机》 CSCD 北大核心 2010年第4期33-37,共5页
为了提高支持向量机的非平衡数据分类能力,分析了最小二乘支持向量机的本质特征,提出了一种基于中心距离比的非平衡数据分类算法,同时通过修剪边界样本,解决了最小二乘支持向量机缺失稀疏性的问题.在UCI标准数据集上进行的试验表明:该... 为了提高支持向量机的非平衡数据分类能力,分析了最小二乘支持向量机的本质特征,提出了一种基于中心距离比的非平衡数据分类算法,同时通过修剪边界样本,解决了最小二乘支持向量机缺失稀疏性的问题.在UCI标准数据集上进行的试验表明:该算法能够有效地提高支持向量机对非均衡分布数据的正确性,且该算法在不影响训练精度的前提下,可以得到稀疏解,算法的训练速度也有了一定的提高. 展开更多
关键词 最小二乘支持向量机 均衡数据分类 稀疏性
下载PDF
基于分层抽样的不均衡数据集成分类 被引量:6
11
作者 王馨月 景丽萍 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2019年第1期24-32,共9页
不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构... 不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法 (简记为EC-SS),通过充分挖掘多数类样本的结构信息,对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员,以确保单个学习器的输入数据均衡且保留原始数据的结构信息,提升后续集成分类性能.在不均衡数据集Musk1、Ecoli3、Glass2和Yeast6上,对比EC-SS方法与基于随机抽样的不均衡数据集成分类方法、自适应采样学习方法、基于密度估计的过采样方法和代价敏感的大间隔分类器方法的分类性能,结果表明,EC-SS方法能有效提升分类性能. 展开更多
关键词 人工智能 均衡分类 分层抽样 集成学习 聚类 数据挖掘
下载PDF
一种不均衡数据的改进蚁群分类算法 被引量:1
12
作者 徐淑坦 王朝勇 孙延风 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2011年第4期733-739,共7页
针对蚁群挖掘算法(ant colony mining algorithm,ACMA)中的规则评价函数和规则修剪方法,提出一种改进的蚁群挖掘算法(improved ant colony mining algorithm,IACMA),并将其应用于不均衡数据分类.数值实验采用基准数据库中3种典型的不均... 针对蚁群挖掘算法(ant colony mining algorithm,ACMA)中的规则评价函数和规则修剪方法,提出一种改进的蚁群挖掘算法(improved ant colony mining algorithm,IACMA),并将其应用于不均衡数据分类.数值实验采用基准数据库中3种典型的不均衡数据,结果表明,改进后的算法能有效提取少数类,提高了不均衡数据整体分类效果. 展开更多
关键词 均衡数据分类 蚁群分类算法 蚁群挖掘算法 数据挖掘 规则提取
下载PDF
基于主动学习的非均衡异常数据分类算法研究 被引量:1
13
作者 王波 王怀彬 《信息网络安全》 CSCD 2017年第10期42-49,共8页
目前,网络安全正面临着越来越复杂的挑战。随着攻击方式和类型的多样化,其破坏程度也在不断增加,网络防护要求已经从单一被动的方式,转为数据融合技术下的主动的网络态势感知,因此,对于异常数据分类的研究仍然十分重要。然而,传统的分... 目前,网络安全正面临着越来越复杂的挑战。随着攻击方式和类型的多样化,其破坏程度也在不断增加,网络防护要求已经从单一被动的方式,转为数据融合技术下的主动的网络态势感知,因此,对于异常数据分类的研究仍然十分重要。然而,传统的分类算法在面临非均衡数据时,只考虑了算法正确率的提升,忽视了少数类的分类效果,从而容易导致对攻击和漏洞信息的误判,并且对于新的异常类型的识别效率不够理想。文章针对上述问题,首先,采用主动学习的采样方法提高了算法在大量样本中的学习效率;然后,基于组合类器的思想对分类算法进行改进,利用误分类代价函数增加算法对少数类的分类精度;最后,通过实验仿真将文中方法和传统方法进行对比,验证提出方法的可行性和有效性。 展开更多
关键词 网络安全 均衡分类 主动学习 代价函数 组合分类
下载PDF
一种面向非均衡分类的随机森林算法 被引量:3
14
作者 沈智勇 苏翀 +1 位作者 周扬 沈智威 《计算机与现代化》 2018年第12期56-60,66,共6页
随机森林算法是一种简单、有效的集成学习算法。它通过自助法和随机化特征子集的方式增加了集成分类的多样性,进而构建出比Bagging和Boosting更精确的集成分类器。然而,当面对非均衡分类问题时,其建树所使用采用的分裂指标——Gini指数... 随机森林算法是一种简单、有效的集成学习算法。它通过自助法和随机化特征子集的方式增加了集成分类的多样性,进而构建出比Bagging和Boosting更精确的集成分类器。然而,当面对非均衡分类问题时,其建树所使用采用的分裂指标——Gini指数被证明对类分布敏感,这在一定程度上降低了随机森林的分类精度。本文提出一种使用K-L距离作为分裂指标的随机森林。实验采用ROC曲线下面积(AUC)作为分类性能评价指标,通过在低度非均衡数据集和高度非均衡数据集上分别与随机森林、平衡随机森林以及基于Hellinger决策树的Bagging集成分类器相比,K-L随机森林不仅在70%以上的实验数据集上优于其他分类器,而且其平均AUC值也优于其他分类器,分别为0. 938、0. 937。上述实验结果表明:使用K-L距离作为分裂指标可以有效提高随机森林处理非均衡分类问题的分类性能。 展开更多
关键词 均衡分类 K-L距离 随机森林 平衡随机森林 BAGGING
下载PDF
一种基于高斯混合模型的不均衡分类方法 被引量:2
15
作者 方佳锴 《电脑知识与技术》 2022年第2期28-30,共3页
为应对不均衡分类问题,提高分类准确率,提出了一种基于高斯混合模型的混合采样集成方法 GMHSE(GaussianMixture-model-based Hybrid Sampling Ensemble method),首先通过高斯混合模型将数据划分成多个类簇,然后在每个类簇上混合采样获... 为应对不均衡分类问题,提高分类准确率,提出了一种基于高斯混合模型的混合采样集成方法 GMHSE(GaussianMixture-model-based Hybrid Sampling Ensemble method),首先通过高斯混合模型将数据划分成多个类簇,然后在每个类簇上混合采样获得多个数据子集,最后基于Bagging技术在类簇内和类簇间进行加权投票完成分类预测。GMHSE通过聚类将对数据进行划分,混合采样保障在不丢失数据信息的同时获得均衡数据集,最后利用集成学习进一步提升模型的泛化性能。实验结果表明,相比已有的一些处理方法,GMHSE可以提升不均衡数据的分类性能。 展开更多
关键词 均衡分类 高斯混合模型 集成学习 混合采样
下载PDF
基于加权正则化协同表示的非均衡分类方法
16
作者 李艳婷 王帅 +3 位作者 金军委 马江涛 陈雪艳 陈俊龙 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2571-2579,共9页
协同表示分类器及其变种在模式识别领域展现出优越的识别性能。然而,其成功很大程度上依赖于类别的平衡分布,高度非均衡的类别分布可能会严重影响其有效性。为弥补这一不足,该文把补子空间诱导的正则项引入到协同表示模型框架,使得改进... 协同表示分类器及其变种在模式识别领域展现出优越的识别性能。然而,其成功很大程度上依赖于类别的平衡分布,高度非均衡的类别分布可能会严重影响其有效性。为弥补这一不足,该文把补子空间诱导的正则项引入到协同表示模型框架,使得改进后的正则化模型更具判别性。进一步,为提高非均衡数据集上少数类的识别准确率,根据每类训练样本的表示能力提出一种基于最近子空间的类权学习算法。该算法根据原始数据的先验信息自适应地获取每类的权重并且能够赋予少数类更大的权重,使得最终的分类结果对少数类更加公平。所提模型具有闭式解,这展示了该方法的计算效率。在权威公开的两类和多类非均衡数据集上的实验结果表明所提方法显著优于其他主流非均衡分类算法。 展开更多
关键词 均衡分类 自适应权重 补子空间 协同表示
下载PDF
二类不均衡数据分类问题常用策略研究 被引量:1
17
作者 杨小军 刘志 +1 位作者 王力猛 刘文 《智能计算机与应用》 2020年第11期21-26,共6页
类分布不均衡问题在现实世界中广泛存在,针对不均衡数据集的分类方法及其性能评估方法,都与传统分类算法大相径庭。本文在分析常用的二类不均衡数据分类策略的基础上,选取了十个公开的KEEL科研数据集,用G-mean值和AUC值分别衡量分类器... 类分布不均衡问题在现实世界中广泛存在,针对不均衡数据集的分类方法及其性能评估方法,都与传统分类算法大相径庭。本文在分析常用的二类不均衡数据分类策略的基础上,选取了十个公开的KEEL科研数据集,用G-mean值和AUC值分别衡量分类器的准确率和泛化性能。在KEEL平台上对常用的三类策略中的12种方法的性能进行了验证,明确了算法各自的适用情况。 展开更多
关键词 二类不均衡数据分类 重采样方法 代价敏感学习算法 集成学习算法 KEEL
下载PDF
基于最小二乘支持向量机的非平衡分布数据分类 被引量:5
18
作者 姚全珠 田元 +2 位作者 王季 杨增辉 张楠 《计算机工程与应用》 CSCD 北大核心 2008年第5期166-169,共4页
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种... 支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。 展开更多
关键词 支持向量机 均衡数据分类 机器学习
下载PDF
面向贯序不均衡数据的混合采样极限学习机 被引量:3
19
作者 毛文涛 王金婉 +1 位作者 何玲 袁培燕 《计算机应用》 CSCD 北大核心 2015年第8期2221-2226,共6页
针对现有机器学习算法难以有效提高贯序不均衡数据分类问题中少类样本分类精度的问题,提出一种基于混合采样策略的在线贯序极限学习机。该算法可在提高少类样本分类精度的前提下,减少多类样本的分类精度损失,主要包括离线和在线两个阶段... 针对现有机器学习算法难以有效提高贯序不均衡数据分类问题中少类样本分类精度的问题,提出一种基于混合采样策略的在线贯序极限学习机。该算法可在提高少类样本分类精度的前提下,减少多类样本的分类精度损失,主要包括离线和在线两个阶段:离线阶段采用均衡采样策略,利用主曲线分别构建多类和少类样本的可信区域,在不改变样本分布特性的前提下,利用可信区域扩充少类样本和削减多类样本,进而得到均衡的离线样本集,建立初始模型;在线阶段仅对贯序到达的多类数据进行欠采样,根据样本重要度挑选最具价值的多类样本,进而动态更新网络权值。通过理论分析证明所提算法在理论上存在损失信息上界。采用UCI标准数据集和实际的澳门空气污染预报数据进行仿真实验,结果表明,与现有在线贯序极限学习机(OS-ELM)、极限学习机(ELM)和元认知在线贯序极限学习机(MCOS-ELM)算法相比,所提算法对少类样本的预测精度更高,且数值稳定性良好。 展开更多
关键词 极限学习机 在线贯序数据 均衡分类 主曲线
下载PDF
折中规划分类性能的少数类误分代价优化设计 被引量:4
20
作者 靳燕 彭新光 《计算机工程与应用》 CSCD 北大核心 2016年第16期51-55,72,共6页
针对代价敏感思想在类不平衡问题中的传统代价给定方式,提出了分类性能需求引导代价优化的因子量化方法。分类性能需求表示为相关于代价因子c的正负类分类性能指标函数式,为代价择优标准。应用遗传算法基于该标准在指定值域内寻优,得到... 针对代价敏感思想在类不平衡问题中的传统代价给定方式,提出了分类性能需求引导代价优化的因子量化方法。分类性能需求表示为相关于代价因子c的正负类分类性能指标函数式,为代价择优标准。应用遗传算法基于该标准在指定值域内寻优,得到最优代价因子,并将其代入代价敏感Boosting学习方法,产生基于给定分类性能的分类模型。折中分类性能的算法实现以正负类召回率的几何平均作为择优标准,选用了四类算法(基算法C4.5和Zero R)依次在三组样本集上进行分类建模。与传统代价给定方式代入算法相比,寻优过程确定的代价因子代入Ada Cost算法后,基于C4.5和Zero R的分类器在TP与TN上的变化幅度依次为33.3%~200%、-49%^-15.6%和-44.4%^-16.7%、25%~400%。前者改善了正类误判情形,且未造成负类误判严重化;后者改善了负类严重误判情形,且正类召回率保持在0.5以上,分类性能达到较为均衡的状态。 展开更多
关键词 少数类分类 代价敏感学习 遗传算法 代价因子优化 分类性能均衡
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部