期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于边界过采样的图节点不平衡分类算法
1
作者 武天昊 董明刚 谭若琦 《计算机工程与应用》 CSCD 北大核心 2024年第13期92-101,共10页
在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一。然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降。提出一种基于边界过采样的图节点不平衡分类算法(ImBS... 在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一。然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降。提出一种基于边界过采样的图节点不平衡分类算法(ImBS)来提升生成样本的多样性。ImBS通过双层图神经分类网络选择出每个类别中高置信度样本作为采样锚点,提高锚点的代表性。为了使生成样本分布更加合理,利用上一步得到的混淆矩阵,计算少数类误判的分布比例。并基于该分布比例,自适应计算不同类间生成的样本数量。在此基础上,提出基于锚点的混合过采样方法。通过混合异类锚点特征的方式过采样边界节点,达到增加样本多样性和扩展少数类决策边界的目的。此外,为了防止产生有害连接,引入个性化PageRank方法,为过采样样本生成邻域分布。在三个真实的数据集(Cora、CiteSeer和Cora-Ful)上的实验表明,该方法与9个代表性的方法对比具有明显优势。 展开更多
关键词 图神经网络 不平衡节点分类 边界过采样
下载PDF
BOS:一种用于不平衡数据学习的边界过采样方法 被引量:3
2
作者 祝团飞 孙婧 +1 位作者 李益洲 李梦龙 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第3期553-559,共7页
不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于... 不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于少数类的K连接分布实现自适应地少数边界合成过采样.实验结果表明,BOS相比已有的几种典型过采样方法提供更优的接受者操作特性曲线下方面积值(AUC),F值(F-Measure)和几何平均值(G-mean). 展开更多
关键词 不平衡问题 K广义的Tomek连接 少数类边界合成过采样
原文传递
基于采样技术的主动不平衡学习算法研究 被引量:2
3
作者 李青雯 孙丹 于化龙 《电子设计工程》 2018年第1期7-12,19,共7页
针对在不平衡分布数据中执行主动学习,其分类面容易形成偏倚,从而导致主动学习失效这一问题,拟采用采样技术作为学习过程的平衡控制策略,在调查了几种已有的采样算法的基础上,提出了一种边界过采样算法,并将其与主动学习相结合。此外,... 针对在不平衡分布数据中执行主动学习,其分类面容易形成偏倚,从而导致主动学习失效这一问题,拟采用采样技术作为学习过程的平衡控制策略,在调查了几种已有的采样算法的基础上,提出了一种边界过采样算法,并将其与主动学习相结合。此外,考虑到极限学习机所具有的泛化能力强、训练速度快等优点,拟采用其作为基分类器,来加速主动学习的进程。通过12个基准数据集对加入平衡控制策略的主动学习算法的性能进行了验证,结果表明:在不平衡场景下,主动学习确实会受到其负面影响,且引入了采样技术的主动学习算法性能明显更优。 展开更多
关键词 类别不平衡 主动学习 极限学习机 样本采样 边界过采样
下载PDF
基于CD-BSMOTE的D-S证据融合变压器故障诊断
4
作者 鲁玲 高诚 +3 位作者 熊威 龚康 马辉 张鑫 《水电能源科学》 北大核心 2024年第5期192-196,共5页
针对变压器油中溶解气体数据集不均衡特性对故障诊断结果的影响,提出一种基于清除临界点改进的边界合成少数类过采样算法均衡数据集和Pearson冲突距离改进D-S证据融合的变压器故障诊断模型。首先,对少数类样本进行均衡化处理,根据K-mean... 针对变压器油中溶解气体数据集不均衡特性对故障诊断结果的影响,提出一种基于清除临界点改进的边界合成少数类过采样算法均衡数据集和Pearson冲突距离改进D-S证据融合的变压器故障诊断模型。首先,对少数类样本进行均衡化处理,根据K-means聚类结果清除处于临界位置的样本;其次,搭建梯度提升树、随机森林、BP神经网络的故障诊断模型,实现变压器故障初步诊断;接着引入Pearson冲突距离改进D-S证据融合模型,实现诊断结果的融合决策;最后,经实际算例分析,诊断精确率达到92.65%。结果表明,所建模型能有效解决数据不平衡对诊断结果的影响,提高故障诊断精度。 展开更多
关键词 故障诊断 油中溶解气体分析 边界合成少数类过采样 Pearson冲突距离 D-S证据融合
下载PDF
基于卷积神经网络的液化预测模型及可解释性分析
5
作者 龙潇 孙锐 郑桐 《岩土力学》 EI CAS CSCD 北大核心 2024年第9期2741-2753,共13页
常规液化判别方法通常是半经验方法,存在人为因素干扰,成功率及均衡性不佳。现有的机器学习方法缺乏足够的样本支撑,存在一定的局限性。通过整合液化数据集,选取修正标准贯击数、细粒含量、土层深度、地下水位深度、总上覆应力、有效上... 常规液化判别方法通常是半经验方法,存在人为因素干扰,成功率及均衡性不佳。现有的机器学习方法缺乏足够的样本支撑,存在一定的局限性。通过整合液化数据集,选取修正标准贯击数、细粒含量、土层深度、地下水位深度、总上覆应力、有效上覆应力、门槛加速度、循环剪应力比、剪切波速、震级与地表峰值加速度11个液化特征建立卷积神经网络(convolutional neural network,简称CNN)模型。引入边界合成少数过采样技术消除不平衡数据集的影响。将CNN模型与随机森林模型、逻辑回归模型、支持向量机模型、极致梯度提升模型和规范方法进行对比,并结合沙普利加性解释(SHapley Additive exPlanations,简称SHAP)分析输入特征对预测结果的影响趋势。结果表明,CNN模型准确率达92.58%,各项指标均优于其他4种机器学习模型和规范方法。对SHAP结果分析可知,修正标贯击数小于15的土层液化概率较高,循环剪应力比CSR小于0.25的土层更不易液化。各因素的影响规律均符合现有认知,预测模型合理可靠。 展开更多
关键词 机器学习 液化预测 卷积神经网络 边界合成少数过采样技术 沙普利加性解释(SHAP)
下载PDF
基于BSMOTE-SVM算法的溢流风险评价
6
作者 张禾 池紫欣 《控制工程》 CSCD 北大核心 2023年第12期2173-2178,共6页
现今钻井作业中各平台仍然依靠人工坐岗进行溢流预警,溢流风险判断具有主观性导致准确率十分有限。针对目前溢流风险识别能力弱和准确率低的问题,首先,采用了边界样本过采样方法避免了由于溢流发生频率极低导致可获取的样本数量不足的缺... 现今钻井作业中各平台仍然依靠人工坐岗进行溢流预警,溢流风险判断具有主观性导致准确率十分有限。针对目前溢流风险识别能力弱和准确率低的问题,首先,采用了边界样本过采样方法避免了由于溢流发生频率极低导致可获取的样本数量不足的缺陷;其次,引入支持向量机对改善后的样本构造分类器,建立了溢流风险评价模型,并采用已经完钻的油井数据作为测试集进行模型验证。实验结果表明,所提方法将溢流识别准确率提高到了90%,相对于原始不均衡样本训练的分类器准确率,提高了36.67%。同时,此研究成果提高了钻井作业中的溢流识别能力,为安全钻井提供了有力支撑。 展开更多
关键词 不均衡数据集 支持向量机 边界合成少数类过采样技术 溢流风险评价
下载PDF
基于数据生成算法的睡眠分期方法 被引量:1
7
作者 刘静博 王蓓 顾吉峰 《计算机工程与设计》 北大核心 2022年第2期406-412,共7页
针对睡眠分期中样本不平衡问题,提出以最短路径为指标选取最优数据进行数据生成的思想,增加少数类样本的数量。基于Border-SMOTE算法,提出改进的iBorder-SMOTE睡眠数据生成算法。用密度峰值聚类算法确定待生成数据的簇类别区域,采用中... 针对睡眠分期中样本不平衡问题,提出以最短路径为指标选取最优数据进行数据生成的思想,增加少数类样本的数量。基于Border-SMOTE算法,提出改进的iBorder-SMOTE睡眠数据生成算法。用密度峰值聚类算法确定待生成数据的簇类别区域,采用中心最短路径选取最优数据点进行数据生成,使用异变扰动方法对生成数据进行修正,保证数据的全局分布。在数据集Sleep-EDF上进行验证,其结果表明,改进后的算法有效提高了少数类样本的识别精度。 展开更多
关键词 睡眠分期 数据生成 边界合成少数类过采样技术 多簇中心最短路径 异变扰动
下载PDF
基于门控循环单元的非均衡数据驱动异常用电检测方法
8
作者 孟宋萍 彭伟 田晨璐 《计算机测量与控制》 2023年第10期54-60,共7页
异常用电检测能够及时发现异常用电行为,在减少能源浪费和经济损失的同时能够维持安全、稳定的电网运行环境;智能电表的普及使得用电数据获取十分容易,为数据驱动的异常用电检测方法提供了充足的数据支持;然而,在实际应用过程中,异常数... 异常用电检测能够及时发现异常用电行为,在减少能源浪费和经济损失的同时能够维持安全、稳定的电网运行环境;智能电表的普及使得用电数据获取十分容易,为数据驱动的异常用电检测方法提供了充足的数据支持;然而,在实际应用过程中,异常数据较少导致的数据非均衡问题严重影响了模型的训练效果;因此,针对上述问题提出了一种针对非均衡数据的门控循环单元异常用电检测方法;该方法利用边界合成少数类过采样技术实现了对少数类数据的有效扩充;为了更好地捕捉用电数据的时序特征,采用了门控循环单元实现对用电数据的分类;为了验证该方法的有效性,基于非均衡数据集进行了对比实验;实验结果表明,该方法能够达到更好的数据扩充效果以及更准确的异常用电检测效果。 展开更多
关键词 异常用电检测 异常用电行为 数据非均衡 边界合成少数类过采样 门控循环单元 时序特征
下载PDF
基于ODR和BSMOTE结合的不均衡数据SVM分类算法 被引量:22
9
作者 陶新民 童智靖 +1 位作者 刘玉 付丹丹 《控制与决策》 EI CSCD 北大核心 2011年第10期1535-1541,共7页
针对传统的支持向量机(SVM)算法在数据不均衡的情况下分类效果不理想的缺陷,为了提高SVM算法在不均衡数据集下的分类性能,提出一种新型的逐级优化递减欠采样算法.该算法去除样本中大量重叠的冗余和噪声样本,使得在减少数据的同时保留更... 针对传统的支持向量机(SVM)算法在数据不均衡的情况下分类效果不理想的缺陷,为了提高SVM算法在不均衡数据集下的分类性能,提出一种新型的逐级优化递减欠采样算法.该算法去除样本中大量重叠的冗余和噪声样本,使得在减少数据的同时保留更多的有用信息,并且与边界人工少数类过采样算法相结合实现训练样本数据集的均衡.实验表明,该算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高. 展开更多
关键词 不均衡数据 支持向量机算法 边界人工少数类过采样算法 逐级优化递减
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部