期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于样本相似度的三支聚类算法 被引量:2
1
作者 李刘万 朱金 王平心 《扬州大学学报(自然科学版)》 CAS 北大核心 2022年第6期40-44,共5页
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基... 将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性. 展开更多
关键词 三支决策 三支聚类 聚类集成 样本相似度
下载PDF
不平衡数据处理的新方法——基于样本相似度的少数类合成法 被引量:4
2
作者 马景义 胡迪 孙枭枭 《数理统计与管理》 CSSCI 北大核心 2015年第5期809-820,共12页
不平衡数据是指分类问题中目标变量的某一类观测值数量远大于其他类观测值数量的数据。针对处理不平衡数据算法SMOTE及其衍生算法的不足,本文提出一种新的向上采样算法SMUP(Synthetic Minority Using Proximity of Random Forests),通... 不平衡数据是指分类问题中目标变量的某一类观测值数量远大于其他类观测值数量的数据。针对处理不平衡数据算法SMOTE及其衍生算法的不足,本文提出一种新的向上采样算法SMUP(Synthetic Minority Using Proximity of Random Forests),通过样本相似度改进SMOTE算法中的距离测量方式,提高了算法的分类精度。实验结果表明,基于SMUP算法的单分类器能有效提升少数类的分类正确率,同时解决了SMOTE对定类型特征变量距离测度不佳的难题;基于SMUP算法的组合分类器分类效果也明显优于SMOTE衍生算法;最重要的是,SMUP将连续型、混合型和定类型这三种特征变量的距离测度整合到一个统一的框架下,为实际应用提供了便利。 展开更多
关键词 SMUP SMOTE 样本相似度 向上采样
原文传递
面向密度分布不均数据的加权逆近邻密度峰值聚类算法
3
作者 吕莉 陈威 +2 位作者 肖人彬 韩龙哲 谭德坤 《智能系统学报》 CSCD 北大核心 2024年第1期165-175,共11页
针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首... 针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首先在局部密度公式中引入基于sigmoid函数的权重系数,增加稀疏区域样本的权重,结合逆近邻思想,重新定义了样本的局部密度,有效提升类簇中心的识别率;其次,引入改进的样本相似度策略,利用样本间的逆近邻及共享逆近邻信息,使得同一类簇样本间具有较高的相似度,可有效改善稀疏区域样本分配错误的问题。在密度分布不均、复杂形态和UCI数据集上的对比实验表明,本文算法的聚类效果优于IDPC-FA、FNDPC、FKNN-DPC、DPC和DPCSA算法。 展开更多
关键词 峰值聚类 分布不均 逆近邻 共享逆近邻 样本相似度 局部密 分配策略 数据挖掘
下载PDF
基于峭度的分类样本优化
4
作者 王胜景 楚皓然 袁永生 《现代电子技术》 2023年第13期121-127,共7页
在机器学习领域,分类数据中的离群点与类簇主体在某些特征上有着显著不同的表现,从而干扰特征的类间区分性,使得分类效果不佳。目前很多研究工作集中于提高离群点识别精度,忽视离群点在模糊不同类簇特性的负面作用。文中提出剔除分类样... 在机器学习领域,分类数据中的离群点与类簇主体在某些特征上有着显著不同的表现,从而干扰特征的类间区分性,使得分类效果不佳。目前很多研究工作集中于提高离群点识别精度,忽视离群点在模糊不同类簇特性的负面作用。文中提出剔除分类样本中离群点以提高分类准确率的策略,根据类内实例离群程度与实例之间相似度的统计分布关系,利用峭度对偏差敏感的统计学性质,构建峭度离群因子(KOF)指标衡量样本离群度。通过计算数据集中每个实例的KOF值,根据KOF梯度变化寻找离群突变点,结合3σ原则识别、剔除离群实例,优化分类数据集。采用K近邻、支持向量机、随机森林等3个经典分类器,在经典UCI数据集、电力负荷数据集和点云数据集等15个数据集上进行优化前后的对比实验,实验结果表明所提策略能够有效地改进分类效果,同时也减少了计算量。 展开更多
关键词 指标 样本优化 离群点 类内样本相似度 变化 多分类问题 监督学习
下载PDF
面向流形数据的共享近邻密度峰值聚类算法 被引量:1
5
作者 赵嘉 马清 +2 位作者 肖人彬 潘正祥 韩龙哲 《智能系统学报》 CSCD 北大核心 2023年第4期719-730,共12页
流形数据由一些弧线状或环状的类簇组成,其特点是同一类簇的样本间距离差距较大。密度峰值聚类算法不能有效识别流形类簇的类簇中心且分配剩余样本时易引发样本的连续误分配问题。为此,本文提出面向流形数据的共享近邻密度峰值聚类(dens... 流形数据由一些弧线状或环状的类簇组成,其特点是同一类簇的样本间距离差距较大。密度峰值聚类算法不能有效识别流形类簇的类簇中心且分配剩余样本时易引发样本的连续误分配问题。为此,本文提出面向流形数据的共享近邻密度峰值聚类(density peaks clustering based on shared nearest neighbor for manifold datasets,DPC-SNN)算法。提出了一种基于共享近邻的样本相似度定义方式,使得同一流形类簇样本间的相似度尽可能高;基于上述相似度定义局部密度,不忽略距类簇中心较远样本的密度贡献,能更好地区分出流形类簇的类簇中心与其他样本;根据样本的相似度分配剩余样本,避免了样本的连续误分配。DPC-SNN算法与DPC、FKNNDPC、FNDPC、DPCSA及IDPC-FA算法的对比实验结果表明,DPC-SNN算法能够有效发现流形数据的类簇中心并准确完成聚类,对真实以及人脸数据集也有不错的聚类效果。 展开更多
关键词 峰值 聚类分析 流形数据 K近邻 共享近邻 样本相似度 数据挖掘 图像处理
下载PDF
基于样本间潜在关系的多变量时间序列分类 被引量:1
6
作者 唐胜唐 吴共庆 +2 位作者 台昌杨 杨泽 张赞 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第12期1642-1650,共9页
多变量时间序列(multivariate time series,MTS)分类任务旨在确定多变量时间序列样本的标签。多变量时间序列数据存在时序关系和样本相似性关系等丰富的关系信息,然而现有的算法未能充分利用关系信息导致分类性能难以提升。基于此,文章... 多变量时间序列(multivariate time series,MTS)分类任务旨在确定多变量时间序列样本的标签。多变量时间序列数据存在时序关系和样本相似性关系等丰富的关系信息,然而现有的算法未能充分利用关系信息导致分类性能难以提升。基于此,文章提出一种基于图卷积网络(graph convolutional network,GCN)的多变量时间序列分类方法,通过挖掘样本间的潜在关系来提高分类性能。为了有效表示样本关系,设计基于样本相似度的构图规则,对样本数据进行建模从而将样本的时序特征和潜在关系信息映射到图空间中,提出基于图卷积的分类模型,通过聚合样本特征来捕获有利于分类的潜在样本关系,更新到样本自身特征向量以提升分类精度。在11个公共数据集上的大量实验结果表明,该文所提算法优于12种对比算法,可见通过挖掘时间序列数据之间潜在的关系用于分类对分类结果具有重要影响,从而为处理时间序列分类问题提供一种新的途径。 展开更多
关键词 多变量时间序列分类 样本相似度 图卷积网络(GCN) 潜在关系 特征聚合
下载PDF
基于改进Cascade RCNN的输电线路防振锤脱落检测方法 被引量:1
7
作者 阎光伟 刘润泽 +1 位作者 焦润海 何慧 《图学学报》 CSCD 北大核心 2023年第5期849-860,共12页
无人机巡检输电线路时,因拍摄角度和距离问题,容易出现被输电线遮挡和远距离拍摄的防振锤脱落目标,导致目标特征被遮挡且分辨率较低,且部分防振锤出现滑移现象,导致目标识别准确率降低。针对以上问题,提出一种基于改进Cascade RCNN的防... 无人机巡检输电线路时,因拍摄角度和距离问题,容易出现被输电线遮挡和远距离拍摄的防振锤脱落目标,导致目标特征被遮挡且分辨率较低,且部分防振锤出现滑移现象,导致目标识别准确率降低。针对以上问题,提出一种基于改进Cascade RCNN的防振锤脱落检测网络。第一,设计了对比学习网络,将正负样本与真实样本的特征进行对比学习,利用对比损失函数训练网络,使其能更加关注到被遮挡的防振锤脱落目标,提升其特征提取能力;第二,进行了分类器增强操作,筛选出网络级联结构中回归效果较好的感兴趣区域并送入最后的分类回归队列中,提高了分类器的分类能力,进而提升检测目标的分类分数;第三,设计了并行注意力机制模块,整合网络提取的特征,增大关键特征的权重,使网络关注到图像中更关键的区域;在特征金字塔中,将双线性插值方法代替为反卷积,提升特征还原能力。经交叉验证实验结果表明,改进后的模型召回率、精确率和平均精度达到了97.5%,91.0%和92.0%,相比基线模型分别提高了6.9%,28.4%和8.0%。 展开更多
关键词 输电线路 防振锤脱落 Cascade RCNN 对比学习网络 并行注意力模块 分类器增强 样本相似度
下载PDF
加权模糊核聚类法在电力变压器故障诊断中的应用 被引量:33
8
作者 符杨 田振宁 +1 位作者 江玉蓉 曹家麟 《高电压技术》 EI CAS CSCD 北大核心 2010年第2期371-374,共4页
变压器油中溶解气体分析(DGA)是电力变压器故障诊断的重要方法。针对模糊C均值聚类算法用于溶解气体成分分析时存在的问题,将加权模糊核聚类方法(WFKC)引入到电力变压器故障诊断中,建立了一个新的变压器故障诊断模型。该法首先考虑到样... 变压器油中溶解气体分析(DGA)是电力变压器故障诊断的重要方法。针对模糊C均值聚类算法用于溶解气体成分分析时存在的问题,将加权模糊核聚类方法(WFKC)引入到电力变压器故障诊断中,建立了一个新的变压器故障诊断模型。该法首先考虑到样本中不同特征对聚类结果的不同影响,利用基于样本相似度的加权方法对样本特征进行加权,然后将样本从输入空间映射到高维特征空间,在特征空间实现加权模糊核聚类。形成的模型充分考虑了不同特征对聚类结果的不同影响,能有效改善复杂数据集的聚类性能,提高了故障诊断的正确率。案例分析表明,该法能快速有效地对样本进行聚类,从而验证了该法在变压器故障诊断中的有效性和可行性。 展开更多
关键词 电力变压器 溶解气体分析 故障诊断 模糊核聚类 特征加权 基于样本相似度的加权方法
下载PDF
一种基于增量式SVR学习的在线自适应建模方法 被引量:11
9
作者 王平 田华阁 +1 位作者 田学民 黄德先 《化工学报》 EI CAS CSCD 北大核心 2010年第8期2040-2045,共6页
训练样本的数量与质量对于过程建模至关重要,在很大程度上影响所建模型的质量。基于增量式支持向量回归(SVR)学习算法,提出一种在线自适应建模方法以实现有选择地添加和删除训练样本。该方法利用SVR模型的KKT条件选择出那些包含足够多... 训练样本的数量与质量对于过程建模至关重要,在很大程度上影响所建模型的质量。基于增量式支持向量回归(SVR)学习算法,提出一种在线自适应建模方法以实现有选择地添加和删除训练样本。该方法利用SVR模型的KKT条件选择出那些包含足够多新信息的样本进行增量学习,能够在保证模型泛化能力的同时降低模型更新频率。另外,为快速准确地跟踪过程特性的变化,将通过评价当前模型对新增训练样本的学习能力来决定是否需要删除旧样本。当需要删除样本时,基于样本间的相似度,选择淘汰与当前过程特性差别最大的旧样本。将该方法用于建立工业聚丙烯熔融指数预报模型,结果表明,与其他方法相比,获得的预测模型具有更好的泛化性能,且模型更新频率明显降低,能有效地适应工况的变化。 展开更多
关键词 支持向量回归 在线建模 样本相似度 熔融指数
下载PDF
一种新的基于约简的多分类器融合算法 被引量:5
10
作者 刘遵仁 吴耿锋 《计算机工程与应用》 CSCD 2012年第34期11-16,59,共7页
提出了一种新的多分类器融合算法。对特征的提取以约简为基础,按照一定的策略添加若干个属性重要度和特征贡献率大的特征,构成一个融合的特征子集空间;接着借助于kNN的思想,计算测试样本的k个最邻近点的类别百分比,为了提高分类精度,引... 提出了一种新的多分类器融合算法。对特征的提取以约简为基础,按照一定的策略添加若干个属性重要度和特征贡献率大的特征,构成一个融合的特征子集空间;接着借助于kNN的思想,计算测试样本的k个最邻近点的类别百分比,为了提高分类精度,引入了样本相似度测度测试样本与k个最邻近点的相似性,通过设置合适的类别百分比和样本相似度的阈值,最终确定测试样本的类别归属。6个UCI标准数据集的实验分析表明,算法是有效的、可行的。详细分析了不同的约简和不同的阈值对分类精度的影响。 展开更多
关键词 邻域粗糙模型 约简 属性重要 特征贡献率 融合特征子空间 样本相似度
下载PDF
基于K均值聚类的大数据频繁项集挖掘研究 被引量:7
11
作者 张娅 《计算机仿真》 北大核心 2020年第8期457-461,共5页
针对传统大数据项集挖掘方法存在占用内存较多、挖掘效率较低的问题,提出新的基于K均值聚类的大数据频繁项集挖掘方法。通过对K均值聚类的区间标度变量、二元变量等相似度量的分析来表示样本之间的相似度与离散度,根据样本数据的不同属... 针对传统大数据项集挖掘方法存在占用内存较多、挖掘效率较低的问题,提出新的基于K均值聚类的大数据频繁项集挖掘方法。通过对K均值聚类的区间标度变量、二元变量等相似度量的分析来表示样本之间的相似度与离散度,根据样本数据的不同属性选择对应矩阵类型;利用频繁项集自身的约束性质压缩空间,缩小挖掘范围;在K均值聚类基础上,采用fg-growth算法将目标数据高度压缩在fp-tree结构中,并命令原始聚类质心和数量,将其作为K均值的输入,实现大数据频繁项集挖掘。仿真结果证明,研究方法有效降低了挖掘计算复杂度,可保证在内存开销基本不变的情况下高效率挖掘大数据频繁项集。 展开更多
关键词 频繁项集挖掘 样本相似度 准则函数 相似阈值
下载PDF
基于递推PLS核算法的软测量在线学习方法 被引量:9
12
作者 邵伟明 田学民 王平 《化工学报》 EI CAS CSCD 北大核心 2012年第9期2887-2891,共5页
针对过程的动态时变特性,提出一种基于PLS核算法的软测量在线学习方法。该方法利用PLS核算法,通过递推学习具有代表性的新样本来改善模型的适应能力,较NIPALS算法具有更高的计算效率;并采用一种同时考虑输入和输出信息的相似度准则,有... 针对过程的动态时变特性,提出一种基于PLS核算法的软测量在线学习方法。该方法利用PLS核算法,通过递推学习具有代表性的新样本来改善模型的适应能力,较NIPALS算法具有更高的计算效率;并采用一种同时考虑输入和输出信息的相似度准则,有选择地删除一个或多个冗余样本,更有效地构建了训练样本集。工业聚丙烯熔融指数的软测量建模研究表明,本文提出的方法能够快速有效地跟踪牌号切换中熔融指数的变化。 展开更多
关键词 软测量 在线学习 PLS核算法 样本相似度
下载PDF
改进孪生神经网络方法研究
13
作者 刘小玲 崔艳荣 《电脑知识与技术》 2021年第28期97-98,共2页
随着深度学习的快速发展,各种人工神经网络框架应运而生,孪生神经网络就是其中的一种。孪生神经网络用于衡量两个样本间的相似性,其概念由来已久,在发展过程中其结构也不断演化。目前孪生神经网络的研究侧重于应用,而对框架的整体了解... 随着深度学习的快速发展,各种人工神经网络框架应运而生,孪生神经网络就是其中的一种。孪生神经网络用于衡量两个样本间的相似性,其概念由来已久,在发展过程中其结构也不断演化。目前孪生神经网络的研究侧重于应用,而对框架的整体了解与把握是应用研究的重要前提。本文主要从四个方面来介绍孪生神经网络框架,首先阐述其概念与结构,其次分析几个改进的网络结构,然后列举其常见的应用领域,最后总结其研究价值。 展开更多
关键词 孪生神经网络 样本相似度 对比损失函数 改进孪生网络应用
下载PDF
改进ID3决策树算法——SS_ID3算法 被引量:1
14
作者 蔡贺 张睿 《甘肃科技》 2011年第14期31-33,8,共4页
从分析ID3决策树算法及解析入手,引入属性样本结构相似度概念,构建了样本结构相似度模型,并以该模型和属性的信息增益共同作为决策树内部结点的选择标准。改进SS_ID3决策树算法,着眼于决策树非叶结点的选择标准的优化,继承了原始ID3决... 从分析ID3决策树算法及解析入手,引入属性样本结构相似度概念,构建了样本结构相似度模型,并以该模型和属性的信息增益共同作为决策树内部结点的选择标准。改进SS_ID3决策树算法,着眼于决策树非叶结点的选择标准的优化,继承了原始ID3决策树算法的优点,并在多值偏向性的修正、决策树的大小控制及分类预测性能等方面取得了积极的改进。 展开更多
关键词 ID3算法 信息增益 样本结构相似 SS_ID3算法
下载PDF
基于词性和中心点改进的文本聚类方法 被引量:6
15
作者 施侃晟 刘海涛 宋文涛 《模式识别与人工智能》 EI CSCD 北大核心 2012年第6期996-1001,共6页
针对k-均值算法对初始点敏感、易陷入局部最优的问题,提出一种基于词性和中心点改进的文本聚类方法(STICS).通过改进文本的语义型表示,优化中心点的选取,并消除孤立点的负面影响,从而获得较好的聚类效果.STICS考虑不同词性特征对文本的... 针对k-均值算法对初始点敏感、易陷入局部最优的问题,提出一种基于词性和中心点改进的文本聚类方法(STICS).通过改进文本的语义型表示,优化中心点的选取,并消除孤立点的负面影响,从而获得较好的聚类效果.STICS考虑不同词性特征对文本的贡献,采用加权的向量空间模型来表示文本.对于中心点的选取,首先度量每个样本的样本平均相似度,其次选取样本平均相似度最大的样本作为第一个聚类中心.此外,STICS消除孤立点的负面影响,以此提高聚类效果.实验结果表明文中方法确实具有更好的聚类效果. 展开更多
关键词 文本聚类 K-均值 词性特征 样本平均相似 孤立点
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部