期刊文献+
共找到554篇文章
< 1 2 28 >
每页显示 20 50 100
Intrusion Detection Algorithm Based on Density,Cluster Centers,and Nearest Neighbors 被引量:6
1
作者 Xiujuan Wang Chenxi Zhang Kangfeng Zheng 《China Communications》 SCIE CSCD 2016年第7期24-31,共8页
Intrusion detection aims to detect intrusion behavior and serves as a complement to firewalls.It can detect attack types of malicious network communications and computer usage that cannot be detected by idiomatic fire... Intrusion detection aims to detect intrusion behavior and serves as a complement to firewalls.It can detect attack types of malicious network communications and computer usage that cannot be detected by idiomatic firewalls.Many intrusion detection methods are processed through machine learning.Previous literature has shown that the performance of an intrusion detection method based on hybrid learning or integration approach is superior to that of single learning technology.However,almost no studies focus on how additional representative and concise features can be extracted to process effective intrusion detection among massive and complicated data.In this paper,a new hybrid learning method is proposed on the basis of features such as density,cluster centers,and nearest neighbors(DCNN).In this algorithm,data is represented by the local density of each sample point and the sum of distances from each sample point to cluster centers and to its nearest neighbor.k-NN classifier is adopted to classify the new feature vectors.Our experiment shows that DCNN,which combines K-means,clustering-based density,and k-NN classifier,is effective in intrusion detection. 展开更多
关键词 intrusion detection DCNN density cluster center nearest neighbor
下载PDF
基于网格近邻优化的密度峰值聚类算法 被引量:1
2
作者 刘继 杨金瑞 《计算机应用研究》 CSCD 北大核心 2024年第4期1058-1063,共6页
密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG... 密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG-DPC算法)。首先对数据空间进行网格化,减少了样本数据点之间距离的计算量;在计算局部密度时不仅考虑了网格自身的密度值,而且考虑了周围k个近邻的网格密度值,降低了主观选择截断距离对聚类结果的影响,提高了聚类准确率,设定网格密度阈值,保证了聚类结果的稳定性。通过实验结果表明,KG-DPC算法比DBSCAN、DPC和SDPC算法在聚类准确率上有很大提升,在聚类平均消耗时间上DPC、SNN-DPC和DPC-NN算法分别降低38%、44%和44%。在保证基本聚类准确率的基础上,KG-DPC算法在聚类效率上有特定优势。 展开更多
关键词 密度峰值聚类 密度阈值 网格 近邻优化
下载PDF
面向密度分布不均数据的加权逆近邻密度峰值聚类算法
3
作者 吕莉 陈威 +2 位作者 肖人彬 韩龙哲 谭德坤 《智能系统学报》 CSCD 北大核心 2024年第1期165-175,共11页
针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首... 针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首先在局部密度公式中引入基于sigmoid函数的权重系数,增加稀疏区域样本的权重,结合逆近邻思想,重新定义了样本的局部密度,有效提升类簇中心的识别率;其次,引入改进的样本相似度策略,利用样本间的逆近邻及共享逆近邻信息,使得同一类簇样本间具有较高的相似度,可有效改善稀疏区域样本分配错误的问题。在密度分布不均、复杂形态和UCI数据集上的对比实验表明,本文算法的聚类效果优于IDPC-FA、FNDPC、FKNN-DPC、DPC和DPCSA算法。 展开更多
关键词 密度峰值聚类 密度分布不均 逆近邻 共享逆近邻 样本相似度 局部密度 分配策略 数据挖掘
下载PDF
高光谱影像逆近邻密度峰值聚类的波段选择算法
4
作者 孙根云 李忍忍 +3 位作者 张爱竹 安娜 付航 潘兆杰 《测绘学报》 EI CSCD 北大核心 2024年第1期8-19,共12页
密度峰值聚类波段选择算法利用局部密度描述波段的密度信息,然而现有的局部密度容易忽略波段分布的全局信息,不能有效描述波段的分布特征,导致波段子集分类精度有限。为解决上述问题,本文提出一种基于逆近邻的密度峰值聚类波段选择算法... 密度峰值聚类波段选择算法利用局部密度描述波段的密度信息,然而现有的局部密度容易忽略波段分布的全局信息,不能有效描述波段的分布特征,导致波段子集分类精度有限。为解决上述问题,本文提出一种基于逆近邻的密度峰值聚类波段选择算法。首先,利用波段与其K近邻构建K近邻有向图,获取波段的逆近邻,以及波段之间的共享近邻和共享逆近邻;然后,利用共享近邻和共享逆近邻并集的个数作为波段之间的相似度,利用波段与其逆近邻的平均欧氏距离和相似度构造增强型局部密度;最后,将增强型局部密度、距离因子、信息熵三者的乘积作为权重值,根据权重值挑选波段子集。为提高试验效率和实用性,本文算法还提出一种自动获得K值的自适应K值方法。在3个高光谱标准数据集上的试验结果表明,本文算法得到的波段子集比其他先进算法挑选的波段有更好的分类性能,尤其是在波段数较少的情况下,而且计算效率较高。 展开更多
关键词 高光谱影像 波段选择 密度峰值聚类 逆近邻 局部密度 自适应K值
下载PDF
改进DPC聚类算法的离群点检测与解释方法
5
作者 周玉 夏浩 裴泽宣 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第8期68-85,共18页
为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方... 为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方法能够同时对数据点的全局和局部进行分析。首先,利用k近邻和核密度估计方法计算数据点的局部密度,代替传统DPC算法中根据截断距离计算的局部密度。其次,将数据点的k近邻距离之和作为全局异常值,并通过KDPC聚类算法计算簇密度以及数据点的局部异常值。最后,将数据点的全局与局部异常值进行乘积作为最终异常得分,选取异常得分最高的Top-n作为离群点,通过构建全局-局部异常值决策图对全局和局部离群点进行解释。利用人工数据集和UCI数据集进行实验并与10种常用离群点检测方法进行比较。结果表明,该方法对全局和局部离群点都有着较高的检测精度和检测性能,并且AUC方面受k值影响较小。同时,利用该方法对NBA球员数据进行分析讨论,进一步证明了该方法的实用性和有效性。 展开更多
关键词 离群点检测 聚类 密度峰值 K近邻 核密度估计
下载PDF
基于覆盖树的自适应均值漂移聚类算法
6
作者 温柳英 庞柯 《计算机工程与设计》 北大核心 2024年第2期452-458,共7页
为解决均值漂移聚类算法聚类效果依赖于带宽参数的主观选取,以及处理密度变化大的数据集时聚类结果精确度问题,提出一种基于覆盖树的自适应均值漂移聚类算法MSCT(MeanShift based on Cover-Tree)。构建一个覆盖树数据集,在计算漂移向量... 为解决均值漂移聚类算法聚类效果依赖于带宽参数的主观选取,以及处理密度变化大的数据集时聚类结果精确度问题,提出一种基于覆盖树的自适应均值漂移聚类算法MSCT(MeanShift based on Cover-Tree)。构建一个覆盖树数据集,在计算漂移向量过程中结合覆盖树数据集获得新的漂移向量结果KnnShift,在不同数据密度分布的数据集上都能自适应产生带宽参数,所有数据点完成漂移过程后获得聚类结果。实验结果表明,MSCT算法的聚类效果整体上优于MS、DBSCAN等算法。 展开更多
关键词 聚类 均值漂移 覆盖树 滑动窗口 最近邻 密度聚类 机器学习
下载PDF
基于AKNN异常检验与ADPC聚类的低压台区拓扑识别方法 被引量:2
7
作者 史子轶 夏向阳 +3 位作者 刘佳斌 谷阳洋 王玉龙 洪佳瑶 《中国电力》 CSCD 北大核心 2024年第5期168-177,共10页
低压台区拓扑信息的准确记录是进行台区线损分析、三相不平衡治理等工作的基础。针对目前拓扑档案排查成本高且效率低的问题,提出一种基于自适应k近邻(adaptive k nearest neighbor,AKNN)异常检验和自适应密度峰值(adaptive density pea... 低压台区拓扑信息的准确记录是进行台区线损分析、三相不平衡治理等工作的基础。针对目前拓扑档案排查成本高且效率低的问题,提出一种基于自适应k近邻(adaptive k nearest neighbor,AKNN)异常检验和自适应密度峰值(adaptive density peaks clustering,ADPC)聚类的低压台区拓扑识别方法。该方法利用动态时间弯曲(dynamic time warping,DTW)距离度量低压台区用户间电压序列的相似性,通过AKNN异常检验算法检验并校正异常的用户与变压器之间的关系(简称“户变关系”),在得到正确户变关系的基础上,采用ADPC聚类算法对台区内用户进行相位识别;最后,通过实际台区算例分析验证了该方法不需要人为设置参数,能有效实现低压台区的拓扑识别,具有较高的适用性与准确性。 展开更多
关键词 低压台区 户变关系 相位识别 自适应k近邻 自适应密度峰值
下载PDF
融合转移概率矩阵的多阶最近邻图聚类算法
8
作者 徐童童 解滨 +1 位作者 张春昊 张喜梅 《计算机应用》 CSCD 北大核心 2024年第5期1527-1538,共12页
聚类是根据样本之间的相似性将数据集划分为多个类簇。现有的大多数聚类方法都存在两个挑战:一方面,在定义样本间相似性时往往没有考虑样本的空间分布结构,无法构建稳定的相似度矩阵;另一方面,图聚类构造的样本图结构过于复杂,计算成本... 聚类是根据样本之间的相似性将数据集划分为多个类簇。现有的大多数聚类方法都存在两个挑战:一方面,在定义样本间相似性时往往没有考虑样本的空间分布结构,无法构建稳定的相似度矩阵;另一方面,图聚类构造的样本图结构过于复杂,计算成本较高。为解决这两个问题,提出融合转移概率矩阵的多阶最近邻图聚类算法(MNNGC)。首先,综合样本的近邻关系和空间分布结构,将共享近邻定义的相似度进行趋密性加权,得到节点间的趋密性亲和矩阵;其次,利用节点间多阶概率转移预测非邻接点的关联程度,并通过融合多阶转移概率矩阵得到稳定的节点间亲和矩阵;再次,为进一步增强图局部结构,重新构建节点的多阶最近邻图,并对多阶最近邻图的局部结构分层聚类;最后,优化了边缘点分配策略。定位实验结果表明,MNNGC在合成数据集上的准确率(Acc)均优于对比算法,且在8个UCI数据集上的Acc为最大值。其中在Compound数据集上,MNNGC的Acc、调整互信息(AMI)、调整兰德指数(ARI)和FM指数(FMI)相较于基于局部密度峰值的谱聚类(LDP-SC)算法分别提高38.6、27.2、45.4、35.1个百分点。 展开更多
关键词 共享近邻 趋密性 转移概率 多阶最近邻 分层聚类
下载PDF
基于共享最近邻的自适应密度峰值聚类算法
9
作者 王心耕 杜韬 +2 位作者 周劲 陈迪 仵匀政 《计算机科学》 CSCD 北大核心 2024年第8期97-105,共9页
密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分... 密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分配样本点时易出现连锁反应这3个缺陷,提出一种基于共享最近邻的自适应密度峰值聚类算法。首先,利用共享最近邻重新定义局部密度等度量值,充分考虑了数据分布的局部特点,使样本点的空间分布特征得以更好地体现;其次,通过引入密度衰减现象让样本点自动聚集成微簇,实现了簇个数自适应确定和簇中心自适应选取;最后,提出一种两阶段的分配方法,先将微簇合并形成簇的主干部分,再用上一步分配好的簇主干指导剩余点的分配,避免了链式反应的发生。在二维合成数据集以及UCI数据集上的实现表明,相较于经典的密度峰值聚类算法及近年来对其提出的改进算法,在大多数情况下,所提算法表现出更优异的性能。 展开更多
关键词 共享最近邻 密度峰值聚类 分配策略 聚类中心 密度衰减
下载PDF
基于MDk-DPC的空中目标自动分群方法
10
作者 马钰棠 孙鹏 +2 位作者 张杰勇 闫云飞 赵亮 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第10期3219-3229,共11页
空中目标分群本质上是一个类数未知的聚类问题,也是战场态势估计领域中的研究热点。针对未知的空战场环境,从聚类角度提出一种基于流形距离和k近邻采样密度的MDk-DPC算法。引入流形距离代替欧氏距离,以增加同一流形中目标的相似性;利用... 空中目标分群本质上是一个类数未知的聚类问题,也是战场态势估计领域中的研究热点。针对未知的空战场环境,从聚类角度提出一种基于流形距离和k近邻采样密度的MDk-DPC算法。引入流形距离代替欧氏距离,以增加同一流形中目标的相似性;利用k近邻计算目标的局部密度,使其能更真实地反映目标周围分布;通过自适应选取聚类中心方法确定聚类中心,并运用密度峰值算法指定剩余点类别完成分群。仿真实验表明,所提方法在人工合成数据集和UCI真实数据集上均有更好的聚类性能,同时通过对空战场仿真数据进行分群验证了所提方法的可行性和有效性。 展开更多
关键词 态势估计 目标分群 流形距离 K近邻 密度峰值聚类
下载PDF
基于共享邻近度和概率分配的密度峰值聚类算法
11
作者 朱鸿祥 吴根秀 王兆辉 《计算机工程与应用》 CSCD 北大核心 2024年第12期74-90,共17页
针对密度峰值聚类(DPC)算法难以准确找到流形数据的类簇中心以及剩余样本点分配过程易发生连带错误等问题,提出了一种基于共享邻近度和概率分配的密度峰值聚类(SP-DPC)算法。基于K近邻和共享K近邻定义了样本点间的共享邻近度,使用共享... 针对密度峰值聚类(DPC)算法难以准确找到流形数据的类簇中心以及剩余样本点分配过程易发生连带错误等问题,提出了一种基于共享邻近度和概率分配的密度峰值聚类(SP-DPC)算法。基于K近邻和共享K近邻定义了样本点间的共享邻近度,使用共享邻近度重新定义了样本点的局部密度,从而找到正确的类簇中心;利用样本点的K近邻信息,提出传递概率分配策略和证据概率分配策略共同优化剩余样本点的分配,从而避免分配连带错误;在17个合成数据集和12个UCI数据集上进行实验,将SP-DPC算法与DPC算法、SKM-DPC算法、DPC-NN算法、DBSCAN算法、K-means算法进行对比,实验结果表明SP-DPC算法在AMI、ARI、FMI这3个评价指标上整体取得了相对最优值,聚类效果优于其他对比算法。 展开更多
关键词 密度峰值聚类 K近邻 共享邻近度 概率分配 证据理论
下载PDF
基于邻域互信息与K-means特征聚类的特征选择 被引量:1
12
作者 孙林 梁娜 徐久成 《智能系统学报》 CSCD 北大核心 2024年第4期983-996,共14页
针对多数邻域系统通过人工调试很难搜索到最佳邻域半径,以及传统的K-means聚类需要随机选取簇中心和指定簇的数目等问题,提出了一种基于邻域互信息与K-means特征聚类的特征选择方法。首先,将样本在各特征下与其他样本距离的平均值作为... 针对多数邻域系统通过人工调试很难搜索到最佳邻域半径,以及传统的K-means聚类需要随机选取簇中心和指定簇的数目等问题,提出了一种基于邻域互信息与K-means特征聚类的特征选择方法。首先,将样本在各特征下与其他样本距离的平均值作为自适应邻域半径,确定样本的邻域集,并由此构建自适应邻域熵、邻域互信息、归一化邻域互信息等度量,反映特征之间的相关性;然后,基于归一化邻域互信息构建自适应K近邻集合,利用Pearson相关系数表示特征的权重定义加权K近邻密度,实现自动选取K-means算法的簇中心,进而完成K-means特征聚类;最后,给出加权平均冗余度,选出每个特征簇中加权平均冗余度最大的特征构成最优特征子集。实验结果表明所提算法不仅可以有效提升特征选择的分类结果而且可以获得更好的聚类效果。 展开更多
关键词 特征选择 邻域互信息 K-MEANS 特征聚类 自适应K近邻 特征权重 加权K近邻密度
下载PDF
基于密度峰值聚类和改进LWLR的短期电力负荷预测
13
作者 王晨宇 张钊 +2 位作者 侯佳龙 周红艳 陈雪波 《东北电力大学学报》 2024年第4期113-120,共8页
短期电力负荷数据具有复杂性和不确定性等特征,这些特征往往会对数据的预测结果产生不可控制的影响。使用传统的聚类方法对短期电力负荷数据进行聚类分析时,预测结果会因电力负荷的不确定性等特点产生偏差。此外,考虑到全局回归预测方... 短期电力负荷数据具有复杂性和不确定性等特征,这些特征往往会对数据的预测结果产生不可控制的影响。使用传统的聚类方法对短期电力负荷数据进行聚类分析时,预测结果会因电力负荷的不确定性等特点产生偏差。此外,考虑到全局回归预测方法在建模阶段无法对不同部分的数据采用不同的建模方式,限制了对于不同分布区域或不同特征子集的自适应性能力的问题。文中采用K近邻和加权相似性的密度峰值聚类算法对短期电力负荷数据进行特征分类,并提出一种利用K近邻的局部加权线性回归模型对短期电力负荷进行预测。该模型的优点在于避免了欧氏距离对簇类中心选取的影响,降低了全局数据对局部数据的负面影响,避免了簇类划分的集中效应,提高了模型的泛化能力。通过与模糊C均值聚类和传统的全局回归预测方法对比,本文提出的模型对于真实电力数据的预测效果更加优越。 展开更多
关键词 密度峰值聚类 K近邻 局部加权线性回归 电力负荷预测 预测性能评价
下载PDF
用于雷达信号分选的K中位最近邻聚类算法
14
作者 伍佳钰 甄佳奇 《黑龙江大学自然科学学报》 CAS 2024年第4期496-504,共9页
在处理雷达信号时,基于密度的空间聚类(Density-based spatial clustering of applications with noise,DBSCAN)分选算法依赖于参数或阈值的选取,影响分选的准确率。为此提出了一种改进的雷达信号脉冲分选算法,在DBSCAN聚类基础上结合了... 在处理雷达信号时,基于密度的空间聚类(Density-based spatial clustering of applications with noise,DBSCAN)分选算法依赖于参数或阈值的选取,影响分选的准确率。为此提出了一种改进的雷达信号脉冲分选算法,在DBSCAN聚类基础上结合了K中位最近邻(K-median nearest neighbor,KMNN)算法,通过引入自衰减系数并设置阈值上限对参数值列表进行二次处理,可以自适应根据聚类结果与不同参数时的K值之间的关系确定最优的邻域半径和最少点个数,提高了分选的正确率。通过仿真实验验证了算法利用雷达脉冲描述字特征进行自适应分选的有效性。 展开更多
关键词 雷达信号分选 聚类 DBSCAN K中位最近邻算法
下载PDF
基于改进密度峰值算法的轨迹聚类
15
作者 钟超 刘漫丹 贺帆 《计算机工程与设计》 北大核心 2024年第1期130-138,共9页
为解决用户群体移动轨迹划分和密度峰值聚类算法自身局限性的问题,以校园轨迹为对象,考虑时间和位置语义信息层面的信息,建立网络用户间的相似性度量模型,提出一种基于共享近邻贡献度的密度峰值聚类算法(density peak clustering based ... 为解决用户群体移动轨迹划分和密度峰值聚类算法自身局限性的问题,以校园轨迹为对象,考虑时间和位置语义信息层面的信息,建立网络用户间的相似性度量模型,提出一种基于共享近邻贡献度的密度峰值聚类算法(density peak clustering based on shared nearest neighbor contribution,SNNC-DPC),结合信息熵理论,通过最小化局部密度熵自适应选择截断距离;在局部密度计算上,利用共享近邻贡献度重新计算局部密度,更加全面地反映数据分布的特性;采用非线性变换方法选取决策值,解决聚类中心选取困难且方法单一的问题。在真实校园轨迹数据集上实验,验证了改进算法的有效性。 展开更多
关键词 无线网络 密度峰值聚类 语义信息 相似性度量 信息熵 聚类中心 共享近邻贡献度
下载PDF
自适应引力密度峰值聚类优化算法
16
作者 罗岚 詹凤 +2 位作者 周传华 任太娇 周昊 《微电子学与计算机》 2024年第3期21-28,共8页
针对密度峰值聚类(Density Peak Clustering,DPC)算法对截断距离的取值较为敏感,密度度量标准不统一且人为选取聚类中心存在主观性的问题,提出了一种自适应引力密度峰值聚类优化(Optimized Adaptive Gravitational Density Peak Cluster... 针对密度峰值聚类(Density Peak Clustering,DPC)算法对截断距离的取值较为敏感,密度度量标准不统一且人为选取聚类中心存在主观性的问题,提出了一种自适应引力密度峰值聚类优化(Optimized Adaptive Gravitational Density Peak Clustering Algorithm,OAGDPC)算法。首先采用模糊加权K-近邻技术(Fuzzy Weighted KNearest Neighbors Density Peak Clustering,FKNN-DPC)重新定义了局部密度,统一了密度度量的标准;然后提出一种自适应选择聚类中心的策略,结合基于引力的密度峰值(Gravitational Density Peak Clustering,GDPC)算法中牛顿万有引力定律与DPC算法的参数映射,使用引力类比距离,并设置综合考虑局部密度和引力的决策参数,依据决策参数降序折线图的顶角变化自适应确定聚类中心;最后聚集非中心点并识别异常点。实验选取DPC、GDPC、FKNN-DPC和OAGDPC在人工和UCI数据集上进行测试,结果表明,OAGDPC算法在各数据集上都有良好的表现,特别在聚类结果准确性、自适应能力、鲁棒性方面相对于对比算法具有明显优势。 展开更多
关键词 密度峰值聚类 聚类中心自适应 K最近邻 模糊邻域
下载PDF
基于AP聚类的时序数据缺失值有序填充算法
17
作者 王强 周金宇 金超武 《计算机仿真》 2024年第8期521-525,共5页
为提高数据的完整性,便于从数据中获得更多有价值的信息,提出基于AP聚类的时序数据缺失值有序填充算法。为提高数据质量,将数据分为不同子集,根据标准差思想对数据作归一化处理,将数值控制在固定区间,减少数据的不平衡性;分别构建吸引... 为提高数据的完整性,便于从数据中获得更多有价值的信息,提出基于AP聚类的时序数据缺失值有序填充算法。为提高数据质量,将数据分为不同子集,根据标准差思想对数据作归一化处理,将数值控制在固定区间,减少数据的不平衡性;分别构建吸引度与归属度更新矩阵,确保消息正常传递,达到近邻传播目的;设计不完整信息系统,将不同数据间的相似度作为聚类依据;获取聚类邻域的半径参数,通过数据点密度指标确定聚类中心,将相邻数据聚集在一起;利用熵值概念,根据数据相似度计算加权系数,确定缺失数据属性值,实现缺失值有序填充。实验结果表明,所提方法能够将具有相同属性特征的数据聚集在一起,即使数据缺失率较高,也能达到很高的填充准确率。 展开更多
关键词 近邻聚类算法 时序数据 缺失值 有序填充 不完整信息系统
下载PDF
基于K-近邻与FOA改进聚类的数据异常分析模型及用电行为分析
18
作者 周伟 牛誉蓉 《成都工业学院学报》 2024年第5期11-16,共6页
对隐藏在大数据中的信息进行深层挖掘时,由于存在数据来源、统计口径、人员输入、行为异常等方面的问题,可能出现异常数据。针对此类问题,首先利用离散小波变换进行多尺度分解,然后采用K-近邻思想对局部区域的密度、距离重新定义,来提... 对隐藏在大数据中的信息进行深层挖掘时,由于存在数据来源、统计口径、人员输入、行为异常等方面的问题,可能出现异常数据。针对此类问题,首先利用离散小波变换进行多尺度分解,然后采用K-近邻思想对局部区域的密度、距离重新定义,来提高对异常值的识别精度;最后结合改进的果蝇优化算法,对密度峰值聚类算法中的截断距离进行优化,提出基于K-近邻与改进果蝇优化的密度峰值聚类异常分析模型。从异常值检测角度进行仿真实验分析,根据用户数据多时间尺度特征,对不同时间尺度的复合数据进行聚类,对用电行为进行分析;选择多种标准测试函数,对基于知识学习的改进果蝇优化算法性能进行对比研究。结果显示,基于K-近邻的算法能够将变压器中不同于正常运行模式的少数异常曲线及单个用户的异常用电模式检测出来,其有效性得到了验证。在基于知识学习的改进果蝇优化算法中,随着果蝇个体数量增加其寻优能力也得到提高。 展开更多
关键词 异常值检测 果蝇优化算法 K-近邻算法 峰值聚类算法 用电行为
下载PDF
基于改进局部密度的可扩展层次聚类算法
19
作者 陈斌 谢文波 +2 位作者 付勋 张恒基 王欣 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期370-382,共13页
层次聚类是无监督学习的重点研究方向,由于其结果易于分析,因此被广泛应用于数据挖掘领域.目前大多数层次聚类算法都需要根据数据的成对距离进行簇合并操作,因此具有较高的复杂度(不论是时间或空间),无法用于大规模数据的处理.针对以上... 层次聚类是无监督学习的重点研究方向,由于其结果易于分析,因此被广泛应用于数据挖掘领域.目前大多数层次聚类算法都需要根据数据的成对距离进行簇合并操作,因此具有较高的复杂度(不论是时间或空间),无法用于大规模数据的处理.针对以上问题,提出了一种基于改进局部密度的可扩展层次聚类算法(Density-based Scalable Hierarchical Clustering,DBSC).该算法根据数据间的最近邻关系构造最近邻图,并在每个最近邻分量上根据互惠最近邻结点的局部密度选择代表点.为了降低孤立最近邻分量对计算局部密度的干扰,算法利用二阶最近邻将孤立最近邻分量重连至最近邻分量.通过以上步骤算法选择代表点,以迭代的方式自下而上地构建聚类树.大量真实数据集的实验结果表明,该算法可以在保证较高的聚类精度和较快的响应速度的前提下将处理数据的规模提升至数十万项. 展开更多
关键词 层次聚类 局部密度 最近邻图 互惠最近邻
下载PDF
基于边界剥离思想的全局中心聚类算法
20
作者 程明畅 敖兰 刘浏 《郑州大学学报(工学版)》 CAS 北大核心 2024年第5期86-94,共9页
全局中心聚类算法如k-means、谱聚类在类簇分布出现重叠粘连现象时往往容易陷入局部最优且参数难以设定,极大地限制了全局中心聚类算法在实际应用中的效果。为解决此问题,提出了一种基于边界剥离思想的全局中心聚类算法。首先,设计了一... 全局中心聚类算法如k-means、谱聚类在类簇分布出现重叠粘连现象时往往容易陷入局部最优且参数难以设定,极大地限制了全局中心聚类算法在实际应用中的效果。为解决此问题,提出了一种基于边界剥离思想的全局中心聚类算法。首先,设计了一步边界剥离法,根据样本点间的反向k近邻关系定义了一种局部距离加权密度,并利用密度经验分布函数一阶差分最大处的密度值作为阈值将数据集分为边界集与核心集。其次,嵌入传统的全局中心聚类算法对核心集进行聚类,得益于核心集的簇间重叠问题已明显改善,嵌入算法将更容易收敛到真实的簇中心。最后,提出一种边界吸引算法,从已被归类的核心集样本点出发,借助已有的反向k近邻关系迭代融合边界集中的样本点以完成对整个数据集的聚类。相较于目前以迭代方式进行的边界剥离算法,所提算法在计算效率上具有明显优势,不需要额外设定复杂的终止条件而直接通过阈值进行边界划分,并且全局性方法在数据局部密度存在差异的情形下具备更强的鲁棒性。在实验阶段,采用3个合成数据集以及6个真实数据集从算法性能、参数敏感性、时间消耗多个方面进行评估,实验结果进一步验证了此算法的有效性与实用性。 展开更多
关键词 全局中心聚类算法 边界剥离 簇重叠 反向k近邻 经验分布
下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部