期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于非均衡数据集的代价敏感学习算法比较研究 被引量:30
1
作者 谷琼 袁磊 +2 位作者 熊启军 宁彬 李文新 《微电子学与计算机》 CSCD 北大核心 2011年第8期146-149,153,共5页
大多数非均衡数据集的研究集中于重构数据集或者代价敏感学习,针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,在简要回顾代价敏感学习理论和现有学习算法的基础上,将所提出的自适应混合重取样算法,与基于最小误分类代... 大多数非均衡数据集的研究集中于重构数据集或者代价敏感学习,针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,在简要回顾代价敏感学习理论和现有学习算法的基础上,将所提出的自适应混合重取样算法,与基于最小误分类代价的MetaCost算法分别进行实验比较,实验表明所提出算法在代价敏感学习中具有一定的优势,实验结果显示非均衡类对代价敏感学习算法性能产生较大影响,当样本类别差异较大时,用样本类空间重构的方法可以得到较好的分类效果. 展开更多
关键词 分类 非均衡数据集 混合重取样 代价敏感学习
下载PDF
一种基于混合重取样策略的非均衡数据集分类算法 被引量:22
2
作者 谷琼 袁磊 +3 位作者 宁彬 吴钊 华丽 李文新 《计算机工程与科学》 CSCD 北大核心 2012年第10期128-134,共7页
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类... 非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。 展开更多
关键词 分类 非均衡数据集 预处理 混合重取样 SMOTE 聚类
下载PDF
一种基于混合采样的非均衡数据集分类算法 被引量:6
3
作者 张明 胡晓辉 吴嘉昕 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1174-1179,共6页
在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后... 在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后对稀疏域中的少数类样本,提出了一种改进的过采样方法(USMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS),最后将平衡后的数据集送入随机森林分类器中进行训练.通过实验表明,该算法与传统算法相比,取得了更高的Gmean值,F-value值,具有更高的综合分类准确率. 展开更多
关键词 非均衡数据集 随机森林 过采样 欠采样
下载PDF
非均衡数据集下基于孪生卷积网络的变压器绕组变形故障识别方法 被引量:6
4
作者 马旭聪 唐文虎 +1 位作者 牛哲文 辛妍丽 《高压电器》 CAS CSCD 北大核心 2023年第10期120-128,共9页
变压器绕组是变压器中最常发生故障的部分,故障类型多且常见程度不同。目前已有学者将机器学习应用于变压器绕组变形故障识别,但存在数据集不均衡时预测准确率低、运算时间长、所需样本量大等问题。为了解决上述的问题,文中提出了一种... 变压器绕组是变压器中最常发生故障的部分,故障类型多且常见程度不同。目前已有学者将机器学习应用于变压器绕组变形故障识别,但存在数据集不均衡时预测准确率低、运算时间长、所需样本量大等问题。为了解决上述的问题,文中提出了一种非均衡数据集下基于孪生卷积网络的变压器绕组变形故障识别方法,收集了变压器故障样本并搭建多种故障诊断模型进行对比以验证所提出方法的有效性。经过模型训练和验证,使用孪生卷积网络在非均衡数据集下进行变压器绕组变形故障识别正确率达到90%左右,高于卷积网络(CNN)、支持向量机(SVM)等其他方法的正确率。 展开更多
关键词 孪生网络 电力变压器 绕组变形故障 非均衡数据集
下载PDF
基于属性相关分析与聚类的铁路列车时刻表非均衡数据集预处理方法
5
作者 孔德越 周姗琪 +2 位作者 朱建生 闫力斌 吴颖 《铁路计算机应用》 2021年第10期1-5,共5页
在铁路列车运行图调整日趋频繁的背景下,列车时刻表数据集具有数据量大、属性多、不同车次时刻表记录数量差异较大、相同车次时刻表记录属性值相似的特点,列车时刻表数据分析和挖掘面临着数据集不均衡问题。为此,提出基于属性相关分析... 在铁路列车运行图调整日趋频繁的背景下,列车时刻表数据集具有数据量大、属性多、不同车次时刻表记录数量差异较大、相同车次时刻表记录属性值相似的特点,列车时刻表数据分析和挖掘面临着数据集不均衡问题。为此,提出基于属性相关分析与聚类的铁路列车时刻表非均衡数据集预处理方法,依据列车时刻表属性与列车运营指标(客座率)的相关分析,可有效合并蕴含冗余信息的相似数据,降低数据集中此类相似数据的占比,可削弱非均衡数据集对后续数据分析的不利影响,并能保留数据所蕴含的主要信息,减少过多相似数据对数据分析模型应用效果的不利影响,提高模型的预测准确度。 展开更多
关键词 列车时刻表 非均衡数据集 数据预处理 相关分析 聚类处理
下载PDF
基于非均衡数据集的新型混合重取样算法 被引量:1
6
作者 谷琼 王贤明 李文新 《武汉理工大学学报》 CAS CSCD 北大核心 2010年第20期55-60,共6页
在分析重取样技术的基础上,设计并实现了自适应选择近邻的混合重取样算法。该方法结合过取样和欠取样方法的优势,改进了SMOTE过取样算法在产生合成样本过程中存在的盲目性及只能复制生成数值属性的问题,新算法能根据实例样本集内部分布... 在分析重取样技术的基础上,设计并实现了自适应选择近邻的混合重取样算法。该方法结合过取样和欠取样方法的优势,改进了SMOTE过取样算法在产生合成样本过程中存在的盲目性及只能复制生成数值属性的问题,新算法能根据实例样本集内部分布的真实特性,自适应调整近邻选择策略,对不同属性的数据采取不同的复制方法生成新的少数类实例,控制和提高合成样本的质量;并通过对合成之后的数据集用改进的邻域清理方法进行适当程度欠取样,去掉多数类中的冗余实例和边界上的噪音数据,减少其规模,在一定程度上达到相对均衡,从而可有效地处理非均衡数据分类问题,提高分类器的性能。 展开更多
关键词 非均衡数据集 重取样 机器学习 分类
原文传递
基于Copula-SVM非均衡数据的金融风险识别与测算 被引量:5
7
作者 赵海月 杨万寿 《统计与决策》 CSSCI 北大核心 2019年第21期156-159,共4页
金融风险识别与防控既是一个经济问题,又是一个社会问题。从概率论角度看,金融风险识别是一个非均衡数据集的分类判定问题。文章建构并运用金融风险识别的Copula-SVM模型,对我国上证指数风险因子进行测算。该模型核心思想在于处理我国... 金融风险识别与防控既是一个经济问题,又是一个社会问题。从概率论角度看,金融风险识别是一个非均衡数据集的分类判定问题。文章建构并运用金融风险识别的Copula-SVM模型,对我国上证指数风险因子进行测算。该模型核心思想在于处理我国金融国际化步伐不断加快背景下各风险因子间的长"厚尾"依存关系。 展开更多
关键词 金融风险与经济风险 非均衡数据集 经济体系与风险防控
下载PDF
非均衡数据分类经典方法综述与面向医疗领域的实验分析 被引量:4
8
作者 江昊琛 魏子麒 +1 位作者 刘璘 陈俊 《计算机科学》 CSCD 北大核心 2022年第1期80-88,共9页
近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数... 近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果。相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的。针对这一应用现状,文中首先围绕"数据非均衡"问题开展了文献调研,尝试通过寻找该问题的通用解决办法来指导在智慧医疗环境下的应用。之后,以数据挖掘领域的会议SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)近年来涉及非均衡数据集的工作为分析样本,统计针对特定领域的"数据非均衡"问题人们倾向选择的处理方法。最后,通过医学数据分析中的两个典型应用场景,对调研获得的知识和方法进行实验应用,从而验证了调研和统计分析中所得出方法的可用性。 展开更多
关键词 数据分析 智慧医疗 非均衡数据集 过采样
下载PDF
基于图卷积网络的非均衡数据船舶柴油机故障诊断 被引量:2
9
作者 王瑞涵 陈辉 +1 位作者 管聪 黄梦卓 《中国舰船研究》 CSCD 北大核心 2022年第5期289-300,共12页
[目的]船舶柴油机状态信息数据普遍存在类别不均衡的问题,非均衡数据集降低了基于数据驱动的故障诊断模型对柴油机健康状况自动识别的准确性。因此,提出基于样本间概率相似性的图卷积网络(GCN)模型,以解决非均衡数据集分类问题。[方法]... [目的]船舶柴油机状态信息数据普遍存在类别不均衡的问题,非均衡数据集降低了基于数据驱动的故障诊断模型对柴油机健康状况自动识别的准确性。因此,提出基于样本间概率相似性的图卷积网络(GCN)模型,以解决非均衡数据集分类问题。[方法]首先,引入Kullback-Leibler散度来计算样本间的概率相似性,以挖掘样本间的非线性关系,将各个样本间的相似性用构造概率图的拓扑结构体现。然后,利用图学习对样本特征及邻近样本特征进行聚合和提取,为非均衡数据集的分类提供更多的信息。最后,通过构造多层图卷积层,对样本特征信息进行更深层次的挖掘。[结果]仿真及台架实验表明,所提出的图卷积网络能够有效地学习更多样本信息,通过聚合邻近样本信息来提高非均衡数据集分类的准确率。[结论]该模型的召回率和精确率均高于其他分类模型,具有一定的工程应用价值。 展开更多
关键词 图卷积网络 故障诊断 船舶柴油机 非均衡数据集分类
下载PDF
基于类中心插值的非均衡数据分类算法
10
作者 齐利泉 《通信技术》 2019年第3期583-586,共4页
在传统的随机森林算法中,随机森林由多棵决策树组成,分类的结果由所有的决策树共同投票决定。随机森林算法在训练决策树的过程中,单棵决策树训练样本的随机采样使得训练产生的决策树模型分类性能有所差别。训练样本的非均衡性会使随机... 在传统的随机森林算法中,随机森林由多棵决策树组成,分类的结果由所有的决策树共同投票决定。随机森林算法在训练决策树的过程中,单棵决策树训练样本的随机采样使得训练产生的决策树模型分类性能有所差别。训练样本的非均衡性会使随机森林模型更偏向大数据样本,使得小样本数据分类性能欠佳。为此,提出了KC-RF算法。该算法的过采样数据分为两部分:第一部分利用k-means对小样本数据进行聚类,在聚类中心周围根据欧式距离采样部分数据,用以表征样本;第二部分以小样本数据中心CM和大样本数据中心间的类间距作为标准进行样本插值。将过采样产生的两部分数据和原来的小样本数据共同组成训练样本,再使用随机森林进行分类。通过在KEEL数据集上的实验证明,所提算法的分类精度提高明显。 展开更多
关键词 随机森林 过采样 非均衡数据集 K-MEANS CM
下载PDF
基于特征权重与K-Medoids算法结合的非均衡数据处理方法
11
作者 杨栋 程科 +1 位作者 张晨 张瑞祥 《计算机与数字工程》 2023年第6期1338-1342,共5页
目前处理非均衡数据的方法多是以重采样方法来延伸的,传统的方法在解决非均衡数据分类问题时会使样本数据分类的精确度偏向于多数类样本,而且没有解决好类内不均衡的问题,未将样本数据的特征权重考虑到分类算法或者采样方法中。因此论... 目前处理非均衡数据的方法多是以重采样方法来延伸的,传统的方法在解决非均衡数据分类问题时会使样本数据分类的精确度偏向于多数类样本,而且没有解决好类内不均衡的问题,未将样本数据的特征权重考虑到分类算法或者采样方法中。因此论文提出了一种基于特征权重值与K-Medoids算法相结合的欠采样方法,这种方法解决了之前提出的问题,抽样得到的数据更有利于决策处理,从而使得分类器对不平衡数据的分类性能有所提高。通过实验表明,论文提出的方法与传统的随机欠采样方法相比,在处理相同标准数据集时具有更好分类效果,显著提高了数据集中各类的分类精度。 展开更多
关键词 非均衡数据集 特征权重 K-Medoids 欠采样
下载PDF
基于生成对抗网络的入侵检测类别不平衡问题数据增强方法 被引量:11
12
作者 孙佳佳 李承礼 +1 位作者 常德显 高立伟 《科学技术与工程》 北大核心 2022年第18期7965-7971,共7页
数据类别不平衡问题是制约机器学习技术在入侵检测领域应用效果的重要因素。当训练数据不均衡时,训练得到模型的分类结果往往倾向多数类,从而极大影响分类效果。针对基于机器学习算法进行入侵检测时训练样本不均衡以及由于数据隐私性导... 数据类别不平衡问题是制约机器学习技术在入侵检测领域应用效果的重要因素。当训练数据不均衡时,训练得到模型的分类结果往往倾向多数类,从而极大影响分类效果。针对基于机器学习算法进行入侵检测时训练样本不均衡以及由于数据隐私性导致训练样本不足和更新慢的问题,提出一种基于生成对抗网络和深度神经网络相结合的入侵数据增强方法,以实现样本集的类别均衡。通过NSL-KDD数据集对模型评估,本文所提方法不仅具有较高的准确率,而且对未知攻击和只有少数样本的攻击类型具有较高的检测率。 展开更多
关键词 生成对抗网络 入侵检测 非均衡数据集 数据增强
下载PDF
基于代价敏感学习的配电网故障线路分类算法
13
作者 张鑫 周伟 徐志宇 《实验室研究与探索》 CAS 北大核心 2024年第11期46-51,81,共7页
为了实现配电网故障线路辨识,以真实录波数据为驱动,从大数据分析角度提出一种配电网单相接地故障定位方法。首先,利用故障波形关联维数、零序电流时频故障测度值等构建多维故障特征向量,反映各种单相接地故障工况;其次,设计一种基于代... 为了实现配电网故障线路辨识,以真实录波数据为驱动,从大数据分析角度提出一种配电网单相接地故障定位方法。首先,利用故障波形关联维数、零序电流时频故障测度值等构建多维故障特征向量,反映各种单相接地故障工况;其次,设计一种基于代价敏感学习的接地故障分类器,解决非均衡数据集分类问题,并依托真实波形数据对算法中代价因子的选择进行优化;最后,形成一种基于代价敏感学习AdaCost算法的配电网单相接地故障定位方法。模拟电网实验结果表明,该方法能够有效提高故障线路识别准确率,而且不受故障类型、故障样本比例、中性点接地方式的影响,为配电网接地故障定位提供了一种解决方案。 展开更多
关键词 配电网 单相接地故障 代价敏感学习 非均衡数据集 故障定位
下载PDF
基于条件式Wasserstein生成对抗网络的电力变压器故障样本增强技术 被引量:61
14
作者 刘云鹏 许自强 +3 位作者 和家慧 王权 高树国 赵军 《电网技术》 EI CSCD 北大核心 2020年第4期1505-1513,共9页
数据非均衡问题是制约机器学习技术在电力变压器故障诊断领域中应用效果的关键因素。为克服传统过采样方法未考虑数据整体分布信息的缺陷,提出了一种基于深度学习的故障数据增强方法,以实现样本库的类别均衡化目标。首先,建立梯度惩罚... 数据非均衡问题是制约机器学习技术在电力变压器故障诊断领域中应用效果的关键因素。为克服传统过采样方法未考虑数据整体分布信息的缺陷,提出了一种基于深度学习的故障数据增强方法,以实现样本库的类别均衡化目标。首先,建立梯度惩罚优化的条件式Wasserstein生成对抗网络模型以指导多类别故障样本的生成过程,并克服了原始生成对抗网络模型的训练不稳定问题;然后,构建以油中溶解气体无编码比值为特征参量的栈式自编码器诊断模型,并进一步提出了基于数据增强方法的设备故障诊断技术框架;最后,选用由准确率、F1度量以及G-mean组成的评价指标体系对类别均衡化前后的模型诊断效果进行评估对比。算例研究结果表明,相较于传统过采样方法,提出的故障样本增强方法能够更为有效地改善诊断模型对于多数类的分类偏好问题,提升其整体分类性能,可作为电力变压器故障诊断的重要数据预处理环节。 展开更多
关键词 变压器故障诊断 非均衡数据集 数据增强 条件式Wasserstein生成对抗网络 梯度惩罚 栈式自编码器
下载PDF
一种基于重取样的代价敏感学习算法 被引量:2
15
作者 谷琼 袁磊 +3 位作者 宁彬 熊启军 华丽 李文新 《计算机工程与科学》 CSCD 北大核心 2011年第9期130-135,共6页
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解... 大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。 展开更多
关键词 分类 非均衡数据集 混合重取样 代价敏感学习
下载PDF
结合AdaBoost和代价敏感的变压器故障诊断方法 被引量:5
16
作者 刘云鹏 和家慧 +4 位作者 许自强 刘一瑾 王权 杨宁 韩帅 《华北电力大学学报(自然科学版)》 CAS 北大核心 2022年第5期1-9,共9页
数据集类别分布非均衡极大制约了人工智能技术在电力变压器故障诊断领域中的应用。为克服数据非均衡导致自适应算法(adaptive boosting,AdaBoost)分类精度提升有限的缺陷,研究提出了一种结合AdaBoost和代价敏感的Adacost算法,以有效提... 数据集类别分布非均衡极大制约了人工智能技术在电力变压器故障诊断领域中的应用。为克服数据非均衡导致自适应算法(adaptive boosting,AdaBoost)分类精度提升有限的缺陷,研究提出了一种结合AdaBoost和代价敏感的Adacost算法,以有效提升诊断模型的综合分类性能。首先,确定专家打分和混淆矩阵结合的代价敏感矩阵以保证模型的合理性和客观性;然后,构建基于Adacost算法的电力变压器故障诊断模型,并以油中溶解气体无编码比值作为诊断模型的输入特征参量;最后进行算例仿真,同时选用准确率、F1度量以及G-mean作为诊断模型的评价指标。研究结果显示,相较于决策树和AdaBoost分类器,Adacost模型的各评价指标均有大幅提升,其中F1度量分别提升了22.03%、10.07%,表明所提方法有效提升了非均衡数据集下诊断模型的故障识别性能。 展开更多
关键词 非均衡数据集 自适应算法(AdaBoost) 代价敏感 变压器 故障诊断
下载PDF
基于改进的SMOTE和RST的新型混合重取样算法
17
作者 谷琼 袁磊 +3 位作者 宁彬 吴钊 华丽 李文新 《微电子学与计算机》 CSCD 北大核心 2012年第9期83-86,共4页
分类预测是数据挖掘和机器学习的重要任务之一,非均衡数据广泛存在于真实世界的分类问题中.本文提出一种新的解决非均衡数据集的预处理方法(ImSMOTE-RSTR*).通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集... 分类预测是数据挖掘和机器学习的重要任务之一,非均衡数据广泛存在于真实世界的分类问题中.本文提出一种新的解决非均衡数据集的预处理方法(ImSMOTE-RSTR*).通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理,该算法被验证得到较理想的结果. 展开更多
关键词 分类 非均衡数据集 混合重取样 SMOTE 粗糙理论
下载PDF
信用卡欺诈风险识别综合实验设计
18
作者 谢天保 齐德伟 +1 位作者 陈梦圆 贾臻 《实验技术与管理》 CAS 北大核心 2022年第3期200-204,共5页
该文针对信用卡欺诈客户数据集极不平衡的特点,设计了SMOTE、Borderline SMOTE、ADASYN、SMOTENC四种采样算法,对数据集进行均衡处理,并结合逻辑回归、支持向量机、随机森林、多层神经网络构建欺诈风险识别模型,最后通过准确率、AUC、... 该文针对信用卡欺诈客户数据集极不平衡的特点,设计了SMOTE、Borderline SMOTE、ADASYN、SMOTENC四种采样算法,对数据集进行均衡处理,并结合逻辑回归、支持向量机、随机森林、多层神经网络构建欺诈风险识别模型,最后通过准确率、AUC、精确率、召回率和F1等指标对识别模型效果进行评判。实验结果表明,SMOTENC采样方法与随机森林模型相结合构建的识别模型效果最好,准确率达到99%,可为银行进行客户欺诈风险判别提供支撑。 展开更多
关键词 非均衡数据集 SMOTE 欺诈客户 欺诈风险识别
下载PDF
基于机器学习的鄂尔多斯盆地陇东地区长7段岩相测井识别方法 被引量:2
19
作者 谌丽 王才志 +2 位作者 宁从前 刘英明 王浩 《油气藏评价与开发》 CSCD 2023年第4期525-536,共12页
岩相分析是储层评价的基础,受取心数量和成本的影响,针对未取心井利用测井资料开展岩相识别工作至关重要。根据岩心薄片鉴定结果,并结合成像测井资料将鄂尔多斯盆地陇东地区长7段岩相划分为6类。在岩心标定的基础上,对各类岩相的测井响... 岩相分析是储层评价的基础,受取心数量和成本的影响,针对未取心井利用测井资料开展岩相识别工作至关重要。根据岩心薄片鉴定结果,并结合成像测井资料将鄂尔多斯盆地陇东地区长7段岩相划分为6类。在岩心标定的基础上,对各类岩相的测井响应特征进行总结,建立该研究区基于常规测井曲线的岩相识别模式,结合机器学习算法开展岩相的自动识别。由于传统的分类算法受岩相样本不均衡的影响较大,对比多种不均衡数据分类算法在该地区的应用效果发现,集成学习Bagging算法通过组合多个基分类器,极大地改善了各类岩相的分类性能,并将该地区岩相的整体识别精度提升了20%。据地区应用效果显示,单井识别精度可达84.33%,具有较好的适用性。 展开更多
关键词 岩相 测井响应特征 非均衡数据集 分类 陇东地区长7段
下载PDF
局部关注支持向量机算法 被引量:10
20
作者 周于皓 张红玲 +1 位作者 李芳菲 祁鹏 《计算机应用》 CSCD 北大核心 2018年第4期945-948,954,共5页
针对训练数据集的不均衡性这一问题,结合采样方法和集成方法,提出一种集成支持向量机分类算法。该算法首先对不均衡的训练集进行非监督聚类;然后依靠其底层的局部关注支持向量机进行数据集局部划分,以精确把控数据集间的局部特征;最后... 针对训练数据集的不均衡性这一问题,结合采样方法和集成方法,提出一种集成支持向量机分类算法。该算法首先对不均衡的训练集进行非监督聚类;然后依靠其底层的局部关注支持向量机进行数据集局部划分,以精确把控数据集间的局部特征;最后通过顶层支持向量机进行分类预测。在UCI数据集上的评测结果显示,该算法与当前流行的算法(如基于采样的核化少数类过采样技术(K-SMOTE)、基于集成的梯度提升决策树(GTB)和代价敏感集成算法(Ada Cost)等)相比,分类效果有明显提升,能在一定程度上解决数据集的不均衡问题。 展开更多
关键词 非均衡数据集 支持向量机 成算法 监督聚类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部