期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于样本重叠与近似马尔可夫毯的特征选择算法 被引量:1
1
作者 王大志 季焱晶 +2 位作者 陈彦桦 王洪峰 黄敏 《计算机应用研究》 CSCD 北大核心 2023年第3期725-730,共6页
随着信息技术的快速发展,数据中的高维特征极大地增加了产生冗余特征的可能性,冗余特征不仅导致搜索空间增大,而且影响了分类的准确率。针对现有的特征选择算法难以解决高维特征选择问题,提出了基于样本重叠与近似马尔可夫毯的特征选择... 随着信息技术的快速发展,数据中的高维特征极大地增加了产生冗余特征的可能性,冗余特征不仅导致搜索空间增大,而且影响了分类的准确率。针对现有的特征选择算法难以解决高维特征选择问题,提出了基于样本重叠与近似马尔可夫毯的特征选择算法(samples overlapping based modified Markov blanket, SOMMB)。该算法首先融合最大信息系数与改进强近似马尔可夫毯去除冗余特征;其次采用样本重叠策略指导前向搜索的过程,选取相关特征。该算法在10个公开数据集上与目前流行的PGVNS、FCBF-MIC、CFS、mRMR、RF、CBFS、ReliefF以及FFSG算法进行对比实验,SOMMB算法的平均准确率为82.519%,对比FFSG获得的最高准确率提升了4.214%,表明SOMMB算法可以提高分类精度。 展开更多
关键词 特征选择 最大信息系数 改进强近似马尔可夫毯 样本重叠 前向搜索
下载PDF
计及样本不平衡与重叠的暂态稳定评估方法 被引量:14
2
作者 李楠 李保罗 +1 位作者 朱建华 李天云 《电力系统自动化》 EI CSCD 北大核心 2020年第21期64-71,共8页
交直流混联系统的稳定性分析复杂且样本不平衡,当前基于数据挖掘的暂态稳定评估方法只追求对不稳定样本的识别精度,忽略了重叠区域样本难分类的问题,导致其综合性能未得到实质性的提升。针对此问题,提出一种计及样本不平衡与重叠的暂态... 交直流混联系统的稳定性分析复杂且样本不平衡,当前基于数据挖掘的暂态稳定评估方法只追求对不稳定样本的识别精度,忽略了重叠区域样本难分类的问题,导致其综合性能未得到实质性的提升。针对此问题,提出一种计及样本不平衡与重叠的暂态稳定评估方法。所提方法通过焦点损失函数来修正轻梯度提升机(LightGBM),自动根据样本的类别以及是否处于重叠区域中的“灰色地带”赋予其不同的权重,从而优化梯度下降的方向。该方法在提升对不稳定样本识别精度的同时,也减少了对稳定样本的误判。在修改的IEEE 68节点系统和中国某省级电网上的算例表明,所提方法在含有噪声且不平衡的数据集上有良好的评估性能。 展开更多
关键词 交直流混联系统 暂态稳定评估 重叠区域样本 样本不平衡 焦点损失函数 轻梯度提升机
下载PDF
样本重叠映射的柔合算法
3
作者 徐静波 周美华 《上海工程技术大学学报》 CAS 1997年第4期17-20,共4页
在小脑模型关节控制器CMAC的ALbus算法中,可由批量学习的输入产生各个权在更新时的柔合因数。这样能改善样本逐一学习法的遗忘现象,又能有较快的收敛速度,对非线性函数的仿真结果,表明了改进算法的特点。
关键词 神经网络 CMAC 样本重叠映射 柔合算法
下载PDF
基于层次聚类的不平衡数据加权过采样方法 被引量:11
4
作者 夏英 李刘杰 +1 位作者 张旭 裴海英 《计算机科学》 CSCD 北大核心 2019年第4期22-27,共6页
不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样... 不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样本以及过拟合的问题。文中提出一种基于层次聚类的不平衡数据加权过采样方法WOHC(Weighted Oversampling method based on Hierarchical Clustering)。该方法首先使用层次聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。利用该方法采样并结合C4.5算法在多个数据集上进行分类实验,结果表明使用该方法能够使分类算法在F-measure和G-mean指标上分别提升7.6%和5.8%,体现了该方法的有效性。 展开更多
关键词 不平衡数据 层次聚类 过采样 重叠样本
下载PDF
基于非平衡面板数据的总体比例变动的检验方法
5
作者 彭荣 《统计与决策》 CSSCI 北大核心 2016年第8期25-27,共3页
文章针对添加新生单元固定样本纵向调查设计和非平衡面板数据,研究不等比例抽样情形下,两个连续时点间总体比例变动的显著性检验方法。基于两种处理重叠样本的思路和对随机抽样情形下相关研究方法的改进,提出了两种新方法,用来估计不等... 文章针对添加新生单元固定样本纵向调查设计和非平衡面板数据,研究不等比例抽样情形下,两个连续时点间总体比例变动的显著性检验方法。基于两种处理重叠样本的思路和对随机抽样情形下相关研究方法的改进,提出了两种新方法,用来估计不等比例抽样情形下总体比例之差的方差,进而检验总体比例变动的显著性。 展开更多
关键词 纵向调查 非平衡面板数据 重叠样本 比例的比较
下载PDF
基于改进的BSMOTE和时序特征的风机故障采样算法 被引量:4
6
作者 杨鲜 赵计生 +4 位作者 强保华 米路中 彭博 唐成华 李宝莲 《计算机应用》 CSCD 北大核心 2021年第6期1673-1678,共6页
针对风机数据集的不平衡问题,提出了一种BSMOTE-Sequence采样算法,在合成新样本时综合考虑空间和时间特征,并对新样本进行清洗,从而有效减少噪声点的生成。首先,根据每个少数类样本的近邻样本的类别比例,将少数类样本划分为安全类样本... 针对风机数据集的不平衡问题,提出了一种BSMOTE-Sequence采样算法,在合成新样本时综合考虑空间和时间特征,并对新样本进行清洗,从而有效减少噪声点的生成。首先,根据每个少数类样本的近邻样本的类别比例,将少数类样本划分为安全类样本、边界类样本和噪声类样本。然后,对每个边界类样本都遴选出空间距离、时间跨度最接近的少数类样本集,利用线性插值法合成新样本,并过滤掉噪声类样本以及类间重叠样本。最后,以支持向量机(SVM)、卷积神经网络(CNN)、长短期记忆(LSTM)人工神经网络作为风机齿轮箱故障检测模型,F1-Score、曲线下面积(AUC)和G-mean作为模型性能评价指标,在真实风机数据集上把所提算法与常用的多种采样算法进行对比,实验结果表明:相比已有算法,BSMOTE-Sequence算法所生成样本的分类效果更好,使得检测模型的F1-Score、AUC和G-mean平均提高了3%,该算法能有效地适用于数据具有时序规律且不平衡的风机故障检测领域。 展开更多
关键词 风机故障检测 不均衡数据 时序特征 采样算法 类间重叠样本
下载PDF
一种基于数据分布的不平衡数据过采样方法
7
作者 陈丽萍 王洪海 何舒平 《安徽大学学报(自然科学版)》 CAS 2024年第5期26-36,共11页
针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进... 针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进而将对分类边界决策影响大的少数类边界样本作为种子样本,并结合种子样本所在子簇的稀疏因子及其识别的难易程度确定采样权重;最后在种子样本所在的子簇中生成新样本.为了验证所设计采样方法的有效性,分别使用AdaBoost(adaptive boosting)和SVM(support vector machine)算法对12个数据集进行分类实验,结果表明,与传统的过采样算法相比,所设计的过采样方法在保证了整体分类性能下,提高了不平衡数据中对少数类的分类效果. 展开更多
关键词 不平衡数据 数据分布 过采样 稀疏因子 重叠样本
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部