期刊文献+
共找到364篇文章
< 1 2 19 >
每页显示 20 50 100
基于Max-min distance聚类算法的园地空间聚类--以永泰县嵩口镇为例
1
作者 冯宇琳 《测绘与空间地理信息》 2024年第7期146-149,共4页
空间聚类是空间数据挖掘的重要手段之一。本文研究了一种基于质心点距离的Max-min distance空间聚类算法:通过加载园地图斑数据,计算其园地图斑质心,判断聚类中心之间的距离,并将符合条件的园地图斑进行聚类,最终将聚类结果可视化表达... 空间聚类是空间数据挖掘的重要手段之一。本文研究了一种基于质心点距离的Max-min distance空间聚类算法:通过加载园地图斑数据,计算其园地图斑质心,判断聚类中心之间的距离,并将符合条件的园地图斑进行聚类,最终将聚类结果可视化表达。本文的算法是利用Visual Studio 2017实验平台和ArcGIS Engine组件式开发环境,采用C#语言进行编写。实验结果表明:1)Max-mindistance聚类通过启发式的选择簇中心,克服了K-means选择簇中心过于邻近的缺点,能够适应嵩口镇等山区丘陵地区空间分布呈破碎的园地数据集分布,有效地实现园地的合理聚类;2)根据连片面积将园地空间聚类结果分为大中小三类,未来嵩口镇可以重点发展园地连片规模较大的村庄,形成规模化的青梅种植园。 展开更多
关键词 max-mindistance聚类算法 园地 GIS 嵩口镇
下载PDF
Distance function selection in several clustering algorithms
2
作者 LUYu 《Journal of Chongqing University》 CAS 2004年第1期47-50,共4页
Most clustering algorithms need to describe the similarity of objects by a predefined distance function. Three distance functions which are widely used in two traditional clustering algorithms k-means and hierarchical... Most clustering algorithms need to describe the similarity of objects by a predefined distance function. Three distance functions which are widely used in two traditional clustering algorithms k-means and hierarchical clustering were investigated. Both theoretical analysis and detailed experimental results were given. It is shown that a distance function greatly affects clustering results and can be used to detect the outlier of a cluster by the comparison of such different results and give the shape information of clusters. In practice situation, it is suggested to use different distance function separately, compare the clustering results and pick out the 搒wing points? And such points may leak out more information for data analysts. 展开更多
关键词 distance function clustering algorithms K-MEANS DENDROGRAM data mining
下载PDF
Design of Evolutionary Algorithm Based Energy Efficient Clustering Approach for Vehicular Adhoc Networks
3
作者 VDinesh SSrinivasan +1 位作者 Gyanendra Prasad Joshi Woong Cho 《Computer Systems Science & Engineering》 SCIE EI 2023年第7期687-699,共13页
In a vehicular ad hoc network(VANET),a massive quantity of data needs to be transmitted on a large scale in shorter time durations.At the same time,vehicles exhibit high velocity,leading to more vehicle disconnections... In a vehicular ad hoc network(VANET),a massive quantity of data needs to be transmitted on a large scale in shorter time durations.At the same time,vehicles exhibit high velocity,leading to more vehicle disconnections.Both of these characteristics result in unreliable data communication in VANET.A vehicle clustering algorithm clusters the vehicles in groups employed in VANET to enhance network scalability and connection reliability.Clustering is considered one of the possible solutions for attaining effectual interaction in VANETs.But one such difficulty was reducing the cluster number under increasing transmitting nodes.This article introduces an Evolutionary Hide Objects Game Optimization based Distance Aware Clustering(EHOGO-DAC)Scheme for VANET.The major intention of the EHOGO-DAC technique is to portion the VANET into distinct sets of clusters by grouping vehicles.In addition,the DHOGO-EAC technique is mainly based on the HOGO algorithm,which is stimulated by old games,and the searching agent tries to identify hidden objects in a given space.The DHOGO-EAC technique derives a fitness function for the clustering process,including the total number of clusters and Euclidean distance.The experimental assessment of the DHOGO-EAC technique was carried out under distinct aspects.The comparison outcome stated the enhanced outcomes of the DHOGO-EAC technique compared to recent approaches. 展开更多
关键词 Vehicular networks clustering evolutionary algorithm fitness function distance metric
下载PDF
A Leukocyte image fast scanning based on max–min distance clustering 被引量:1
4
作者 Yapin Wang Yiping Cao 《Journal of Innovative Optical Health Sciences》 SCIE EI CAS 2016年第6期50-57,共8页
A leukocyte image fast scanning method based on max min distance clustering is proposed.Because of the lower proportion and uneven distribution of leukocytes in human peripheral blood,there will not be any leukocyte i... A leukocyte image fast scanning method based on max min distance clustering is proposed.Because of the lower proportion and uneven distribution of leukocytes in human peripheral blood,there will not be any leukocyte in lager quantity of the captured images if we directly scan the blood smear along an ordinary zigzag scanning routine with high power(100^(x))objective.Due to the larger field of view of low power(10^(x))objective,the captured low power blood smear images can be used to locate leukocytes.All of the located positions make up a specific routine,if we scan the blood smear along this routine with high power objective,there will be definitely leukocytes in almost all of the captured images.Considering the number of captured images is still large and some leukocytes may be redundantly captured twice or more,a leukocyte clustering method based on max-min distance clustering is developed to reduce the total number of captured images as well as the number of redundantly captured leukocytes.This method can improve the scanning eficiency obviously.The experimental results show that the proposed method can shorten scanning time from 8.0-14.0min to 2.54.0 min while extracting 110 nonredundant individual high power leukocyte images. 展开更多
关键词 Leukocyte image fast scanning scanning routine max-min distance clustering window clustering microscopic imaging image segmentation
下载PDF
Ant colony ATTA clustering algorithm of rock mass structural plane in groups 被引量:9
5
作者 李夕兵 王泽伟 +1 位作者 彭康 刘志祥 《Journal of Central South University》 SCIE EI CAS 2014年第2期709-714,共6页
Based on structural surface normal vector spherical distance and the pole stereographic projection Euclidean distance,two distance functions were established.The cluster analysis of structure surface was conducted by ... Based on structural surface normal vector spherical distance and the pole stereographic projection Euclidean distance,two distance functions were established.The cluster analysis of structure surface was conducted by the use of ATTA clustering methods based on ant colony piles,and Silhouette index was introduced to evaluate the clustering effect.The clustering analysis of the measured data of Sanshandao Gold Mine shows that ant colony ATTA-based clustering method does better than K-mean clustering analysis.Meanwhile,clustering results of ATTA method based on pole Euclidean distance and ATTA method based on normal vector spherical distance have a great consistence.The clustering results are most close to the pole isopycnic graph.It can efficiently realize grouping of structural plane and determination of the dominant structural surface direction.It is made up for the defects of subjectivity and inaccuracy in icon measurement approach and has great engineering value. 展开更多
关键词 rock mass discontinuity cluster analysis ant colony ATTA algorithm distance function Silhouette index
下载PDF
基于累积和事件段识别与改进谱聚类的锂离子电池储能系统内短路故障检测方法 被引量:1
6
作者 肖先勇 陈智凡 +2 位作者 汪颖 何涛 张逢蓉 《电网技术》 EI CSCD 北大核心 2024年第2期658-667,共10页
锂离子电池系统的内短路故障可能导致严重安全事故,其检测受到在线检测实时性以及故障特征获得性制约,是当下锂离子电池储能系统安全运行亟待解决的问题。该文提出一种基于累积和(cumulative sum,CUSUM)事件段检测与改进谱聚类的锂离子... 锂离子电池系统的内短路故障可能导致严重安全事故,其检测受到在线检测实时性以及故障特征获得性制约,是当下锂离子电池储能系统安全运行亟待解决的问题。该文提出一种基于累积和(cumulative sum,CUSUM)事件段检测与改进谱聚类的锂离子电池储能系统内短路故障检测方法。首先,考虑内短路故障时的电压/温度变化特性,基于累积和事件突变点识别方法,识别疑似内短路故障事件段。其次,构建三维故障特征,刻画检测对象内短路故障特征属性。然后,构建基于Wasserstein测度的内短路故障特征距离矩阵,检测三维空间各点稀疏特性,客观划定故障聚类,实现内短路故障检测。搭建锂离子电池内短路实验平台、建立锂离子电池电–热耦合仿真模型,算例结果表明该文方法能够准确识别疑似内短路故障事件段,在不同串并联形式及故障类型下实现故障检测,证明了该文方法的正确性与可行性。 展开更多
关键词 内短路故障检测 事件段检测 故障特征 Wasserstein距离 改进谱聚类算法
下载PDF
融合密度和划分的文本聚类算法
7
作者 刘龙 刘新 +1 位作者 蔡林杰 唐朝 《计算机与数字工程》 2024年第1期178-183,共6页
文档聚类是聚类的经典应用,它是将相似的文档归为同一类,可以有效地组织、摘要和导航文本信息,也可以用来提高分类效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度聚类算法不适用于高维数据集,划分聚类算法中... 文档聚类是聚类的经典应用,它是将相似的文档归为同一类,可以有效地组织、摘要和导航文本信息,也可以用来提高分类效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度聚类算法不适用于高维数据集,划分聚类算法中的K-均值算法可以有效地聚类文档,但是算法的性能非常依赖于初始中心点的选择。论文提出了一种新的融合密度和划分的文本聚类算法。首先,通过密度选择适当的聚类中心点集合,然后使用最远距离的想法逐渐选择初始类中心点,最后使用划分方法对数据集进行聚类。实验表明,该算法的聚类效果稳定,聚类效果良好。 展开更多
关键词 文档聚类 BERT K-均值算法 密度 最远距离
下载PDF
RLDEAO优化的空气质量数据聚类分析
8
作者 田闯 黄鹤 +2 位作者 杨澜 王会峰 茹锋 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2024年第5期542-553,共12页
对空气质量数据进行聚类,传统聚类方法因受初始点的影响,存在随机性高、聚类精度低以及多个中心点出现在同一簇中的问题,为此提出了一种反向学习差分进化天鹰优化器(RLDEAO)优化的K-means互补迭代空气质量数据聚类方法。天鹰优化器(aqui... 对空气质量数据进行聚类,传统聚类方法因受初始点的影响,存在随机性高、聚类精度低以及多个中心点出现在同一簇中的问题,为此提出了一种反向学习差分进化天鹰优化器(RLDEAO)优化的K-means互补迭代空气质量数据聚类方法。天鹰优化器(aquila optimizer,AO)算法具有很强的探索能力,不易受初始点的影响且更易实现,但易陷入局部最优。基于自适应逐维小孔成像反向学习策略、停滞扰动结合莱维飞行策略以及生物进化策略等改进思想,对AO算法进行了改进,有效提高了搜索性能,避免了局部最优;在求取聚类中心点时,设计了一种加权最大最小距离积法(weighted maximum minimum distance product,WMMP),能反映各特征的重要性,对改进聚类结果作用良好;将RLDEAO与WMMP相结合优化K-means互补迭代,提高了搜索速率和搜索精度。通过在多个数据集上的聚类测试,发现RLDEAO-KMC算法的收敛精度和聚类效果较AO-KMC、FCM、KMC、KMC++算法更优。可知,RLDEAO-KMC算法可以更高效地对空气质量数据进行聚类分析,有针对性地做出预测和应对。 展开更多
关键词 K-MEANS聚类算法 天鹰优化器(AO) 加权最大最小距离积法
下载PDF
无线传感器网络中一种基于聚合层次聚类的分簇路由算法
9
作者 张芳 高翠芳 《计算机应用研究》 CSCD 北大核心 2024年第9期2805-2814,共10页
针对无线传感器网络中节点连接以及能量受限不足的问题,为了延长网络寿命,提出了一种基于AHC的分簇路由算法(HACCRA)。该算法首先运用AHC对网络节点分簇,接着为簇首选择、簇形成和路径构建分别定义了恰当的决策目标函数,运用能量阈值、... 针对无线传感器网络中节点连接以及能量受限不足的问题,为了延长网络寿命,提出了一种基于AHC的分簇路由算法(HACCRA)。该算法首先运用AHC对网络节点分簇,接着为簇首选择、簇形成和路径构建分别定义了恰当的决策目标函数,运用能量阈值、提出距离阈值、并且路由过程优先考虑簇首节点之间的一对一连接,有效解决了路由算法中分簇和路由不衔接的问题。仿真结果表明,与JCR、ICR以及DCK-LEACH相比,HACCRA能够更好地实现网络节点的能耗均衡,保证网络数据传输的连接性,从而延长网络寿命。 展开更多
关键词 聚合层次聚类算法 距离阈值 一对一连接 能耗均衡 分簇路由算法
下载PDF
基于人工鱼群的自适应密度峰值聚类算法
10
作者 何凯琳 张正军 +1 位作者 位雅 唐莉 《计算机工程与设计》 北大核心 2024年第1期110-119,共10页
针对密度峰值聚类算法中截断距离d c和聚类中心缺乏选取依据,以及对簇中存在多密度峰值的数据无法准确聚类问题,提出一种基于人工鱼群的自适应密度峰值聚类算法(AFSADPC)。选择簇中心权值γ大于幂律分布上分位数的样本点作为聚类中心,... 针对密度峰值聚类算法中截断距离d c和聚类中心缺乏选取依据,以及对簇中存在多密度峰值的数据无法准确聚类问题,提出一种基于人工鱼群的自适应密度峰值聚类算法(AFSADPC)。选择簇中心权值γ大于幂律分布上分位数的样本点作为聚类中心,根据两个相邻簇的簇间边界区域密度与簇平均密度构造簇间合并规则,利用人工鱼群算法寻找使改进轮廓系数指标达到最大值时的最优截断距离d_(c)。在合成数据集和真实数据集上的实验结果表明,AFSADPC算法具有较好的聚类效果。 展开更多
关键词 密度峰值 聚类算法 人工鱼群算法 截断距离 幂律分布 簇合并策略 轮廓系数
下载PDF
基于分段动态时间弯曲距离的高损线路窃电检测方法
11
作者 魏梅芳 阳靖 +1 位作者 黄頔 苏盛 《南方电网技术》 CSCD 北大核心 2024年第8期106-114,共9页
利用高损线路中窃电用户用电量与线损电量之间的关联关系识别窃电用户,是降低窃电检测误报率的重要途径,但相关方法对用户负荷时序平稳性等方面有严格要求,限制了其工程应用。提出了基于分段动态时间弯曲距离的高损线路窃电用户识别方... 利用高损线路中窃电用户用电量与线损电量之间的关联关系识别窃电用户,是降低窃电检测误报率的重要途径,但相关方法对用户负荷时序平稳性等方面有严格要求,限制了其工程应用。提出了基于分段动态时间弯曲距离的高损线路窃电用户识别方法。首先,运用启发式分割算法对各用户用电量序列和线损电量序列进行数据变换,实现特征提取和数据降维;然后,利用动态时间弯曲距离找出与线损电量形态最相似的用户用电量,分析它们之间的联动性;最后,提出基于分段动态时间弯曲的密度聚类方法,实现用户用电量聚类,得到具有相同波动方向的用电量簇集,并将与线损电量形态上最相似且波动方向相同的用电电量所对应的用户定为窃电嫌疑用户。基于高损线路的实际数据进行算例仿真,结果表明所提方法相较于对比方法具有更好的精确度及更低的误报率。 展开更多
关键词 高损线路 启发式分割算法 动态时间弯曲距离 密度聚类
下载PDF
考虑节点功率储备与GIN中心性的主动配电网动态集群电压控制
12
作者 杨悦 陈宇航 +4 位作者 成龙 孙玮澳 顾欣然 郜佳兴 单继忠 《电网技术》 EI CSCD 北大核心 2024年第2期618-629,共12页
为应对大规模分布式光伏(photovoltaic,PV)接入引起的主动配电网电压越限问题,降低控制策略的时序复杂性,提出一种考虑节点功率储备与节点影响力(global importance of each node,GIN)的主动配电网动态集群电压控制方法。首先,通过考虑... 为应对大规模分布式光伏(photovoltaic,PV)接入引起的主动配电网电压越限问题,降低控制策略的时序复杂性,提出一种考虑节点功率储备与节点影响力(global importance of each node,GIN)的主动配电网动态集群电压控制方法。首先,通过考虑系统各节点的功率储备度,定义聚类算法的电压灵敏度-功率储备度(voltage sensitivity-power reserve,VS-PR)综合电气距离量度。进而,以GIN算法改进亲和力传播(affinity propagation,AP)聚类算法,实现网络集群划分与主导节点选取。然后,建立主动配电网集群电压控制模型,并通过动态粒子群算法(dynamic particle swarm optimization,D-PSO)进行模型求解。最后,通过建立基于MATLAB 2021b平台的IEEE 33节点仿真算例对比分析,验证了所提动态集群划分与电压控制方法的正确性和有效性。 展开更多
关键词 主动配电网 电压控制 源–网集群 分布式光伏 综合电气距离 亲和力传播算法 节点影响力
下载PDF
船用开关柜局部放电异常检测
13
作者 李浩 陈亚杰 杨帆 《机电设备》 2024年第2期35-41,共7页
针对船用开关柜现场带电检测数据,提出了一种基于多维特征量的主成分(PCA)聚类离群算法,对柜体的局部放电程度进行异常识别。首先采用运行时间的年限系数以及局部放电检测数据的离散度、均值距离度和极差度等指标全面量化开关柜局部放... 针对船用开关柜现场带电检测数据,提出了一种基于多维特征量的主成分(PCA)聚类离群算法,对柜体的局部放电程度进行异常识别。首先采用运行时间的年限系数以及局部放电检测数据的离散度、均值距离度和极差度等指标全面量化开关柜局部放电状态程度,构建PCA-多维样本数据集;通过轮廓系数法选择聚类离群算法最佳的簇参数;考虑聚类后各类别之间的密度差异性,引入相对距离量化局部放电的程度,由此实现局放程度异常识别。对现场带电检测实际数据进行实例分析,验证该方法的可行性,为船用开关柜的局部放电状态异常识别提供一定的理论依据。 展开更多
关键词 开关柜 PCA-多维样本 轮廓系数 相对距离 聚类离群
下载PDF
结合灰狼优化算法和动态邻域的三支密度峰值聚类算法
14
作者 陈沛琦 黄春梅 《长江信息通信》 2024年第1期70-73,77,共5页
针对密度峰值聚类算法聚类效果受截断距离dc的取值影响较大以及传统二支聚类处理不确定数据强制划分带来的决策错误,提出结合灰狼优化算法和动态邻域的三支密度峰值聚类算法。首先,为解决截断距离dc的选取难问题,将聚类内部指标Silhoue... 针对密度峰值聚类算法聚类效果受截断距离dc的取值影响较大以及传统二支聚类处理不确定数据强制划分带来的决策错误,提出结合灰狼优化算法和动态邻域的三支密度峰值聚类算法。首先,为解决截断距离dc的选取难问题,将聚类内部指标Silhouette指标作为目标函数,利用灰狼优化算法(GWO)的全局寻优能力求解最优的截断距离dc;为了使不确定数据的划分更加合理,结合动态邻域的思想,利用K近邻算法将二支聚类结果转化为三支聚类结果。通过在人工数据集以及UCI真实数据集的实验验证,该算法的聚类精度和总体性能优于其他5种对比算法。 展开更多
关键词 密度峰值聚类 灰狼优化算法 三支聚类 截断距离
下载PDF
利用Transformer的组合聚类算法在蛋白质数据分析中的应用
15
作者 陈祥龙 李海军 +1 位作者 赵福军 袁媛 《无线互联科技》 2024年第14期74-81,共8页
该研究将Transformer模型适配于蛋白质特征降维场景,通过其特有的自注意力机制,赋予模型对长程依赖关系的较好建模性能,同时,多头注意力设计使得模型能够从不同角度捕获特征间的相互作用,进一步提升降维结果的表达力和鲁棒性。文章提出... 该研究将Transformer模型适配于蛋白质特征降维场景,通过其特有的自注意力机制,赋予模型对长程依赖关系的较好建模性能,同时,多头注意力设计使得模型能够从不同角度捕获特征间的相互作用,进一步提升降维结果的表达力和鲁棒性。文章提出了一种新型的GRKM组合聚类算法,在原始K-means算法中引入了灰狼优化算法(Grey Wolf Optimization Algorithm)确定聚类的K值,以随机游走算法(Random Walk)确定初始聚类中心,以马氏距离(Markov Distance)来衡量样本间的相似性。研究中,对5种具有代表性的蛋白质数据集进行了实验验证,得到了改进后算法在轮廓系数以及DB指数等方面相较于改进前都有较大提升的结论。最终的结果分析选取APP蛋白质数据,将蛋白质聚为8类,探讨了各类别的生物功能,在解释性方面也取得了较为明显的效果。所提算法为深入理解蛋白质功能、发现潜在生物标志物以及指导药物设计等实际应用提供了参考工具。 展开更多
关键词 蛋白质序列 Transformer模型 聚类算法 马氏距离 随机游走 灰狼优化算法
下载PDF
基于自适应布谷鸟优化特征选择的K-means聚类
16
作者 孙林 刘梦含 《计算机应用》 CSCD 北大核心 2024年第3期831-841,共11页
K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首... K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首先,为提升CS算法的搜索速度和精度,在莱维飞行阶段,设计了自适应步长因子;为调节CS算法全局搜索和局部搜索之间的平衡、加快CS算法的收敛,动态调整发现概率,进而提出改进的动态CS算法(IDCS),在IDCS的基础上构建了结合动态CS的特征选择算法(DCFS)。其次,为提升传统欧氏距离的计算精确度,设计同时考虑样本和特征对距离计算贡献程度的加权欧氏距离;为了确定最佳聚类数目的选取方法,依据改进的加权欧氏距离构造了加权簇内距离和簇间距离。最后,为克服传统K-means聚类目标函数仅考虑簇内的距离而未考虑簇间距离的缺陷,提出基于中位数的轮廓系数的目标函数,进而设计了DCFSK。实验结果表明,在10个基准测试函数上,IDCS的各项指标取得了较优的结果;相较于K-means、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等算法,在6个合成数据集与6个UCI数据集上,DCFSK的聚类效果最佳。 展开更多
关键词 布谷鸟搜索算法 K-MEANS聚类 欧氏距离 特征选择 轮廓系数
下载PDF
考虑建成环境的酒驾事故时空分布特征
17
作者 于晓桦 田雨晗 杨大志 《交通科技与经济》 2024年第4期36-44,共9页
为深入了解我国酒驾事故的时空分布特征及其与周围建成环境的空间距离阈值,以济南市2022年发生的1034起酒驾事故与13029起非酒驾事故案例为研究对象,结合季节性强度指数与地理集中指数等衡量指标,分析酒驾事故的时空分布特征;利用近邻... 为深入了解我国酒驾事故的时空分布特征及其与周围建成环境的空间距离阈值,以济南市2022年发生的1034起酒驾事故与13029起非酒驾事故案例为研究对象,结合季节性强度指数与地理集中指数等衡量指标,分析酒驾事故的时空分布特征;利用近邻分析与基于最大类簇直径改进的K-means聚类算法,探究出周围建成环境与酒驾事故点的空间距离阈值。结果表明:酒驾事故的时间分布季节强度指数为4.128,大于非酒驾事故的3.839,时间分布差异性更大,且高发时段(20:00—02:00)与餐饮服务的高峰营业时间一致。酒驾事故的地理集中指数G为32.713%,大于均匀分布情况下的地理集中指数G,空间集聚程度更高,且与周围建成环境分布具有密切联系。餐饮服务、购物服务、住宿服务与商务住宅的聚类中心点到酒驾事故点的距离阈值分别为798.415 m、694.378 m、658.234 m与739.622 m。 展开更多
关键词 交通安全 酒驾事故 近邻分析 K-MEANS聚类算法 距离阈值
下载PDF
异构并行计算下高维混合型数据聚类算法研究
18
作者 祝鹏 《现代电子技术》 北大核心 2024年第9期139-142,共4页
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特... 高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K⁃Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K⁃Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K⁃Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 展开更多
关键词 异构并行计算 高维混合型数据 K⁃Prototypes聚类算法 欧氏距离 统计序列特征 负载平衡
下载PDF
高维数据聚类数量可视化确定模式
19
作者 何选森 何帆 +1 位作者 樊跃平 陈洪军 《沈阳航空航天大学学报》 2024年第3期71-84,共14页
为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量... 为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量分析(princi‐palcomponentanalysis,PCA)抽取数据中最重要的特征以实现高维数据的降维;然后,采用最远质心选择和最小-最大距离规则对K-均值聚类算法的初始化进行修正,避免出现空聚类并确保数据的可分离性;在此基础上,采用统计经验法则估计聚类数量的可能范围,通过搜索在此范围内平方误差和(sum-of-squared-error,SSE)曲线的肘部估计最佳的聚类数量;最后,通过计算比较各个聚类的轮廓系数以评价算法的聚类质量,从而最终确定数据集固有的聚类数量。仿真结果表明,该方案不仅能可视化地确定数据集潜在的聚类数量,而且为大数据时代的高维数据分析提供了一种有效的方法。 展开更多
关键词 K-均值聚类算法 主分量分析 最远质心选择 最小-最大距离规则 统计经验法则 肘部法 轮廓分析
下载PDF
A New Line Symmetry Distance and Its Application to Data Clustering 被引量:1
20
作者 Sriparna Saha Sanghamitra Bandyopadhyay 《Journal of Computer Science & Technology》 SCIE EI CSCD 2009年第3期544-556,共13页
In this paper, at first a new line-symmetry-based distance is proposed. The properties of the proposed distance are then elaborately described. Kd-tree-based nearest neighbor search is used to reduce the complexity of... In this paper, at first a new line-symmetry-based distance is proposed. The properties of the proposed distance are then elaborately described. Kd-tree-based nearest neighbor search is used to reduce the complexity of computing the proposed line-symmetry-based distance. Thereafter an evolutionary clustering technique is developed that uses the new linesymmetry-based distance measure for assigning points to different clusters. Adaptive mutation and crossover probabilities are used to accelerate the proposed clustering technique. The proposed GA with line-symmetry-distance-based (GALSD) clustering technique is able to detect any type of clusters, irrespective of their geometrical shape and overlapping nature, as long as they possess the characteristics of line symmetry. GALSD is compared with the existing well-known K-means clustering algorithm and a newly developed genetic point-symmetry-distance-based clustering technique (GAPS) for three artificial and two real-life data sets. The efficacy of the proposed line-symmetry-based distance is then shown in recognizing human face from a given image. 展开更多
关键词 unsupervised classification clustering symmetry property line-symmetry-based distance KD-TREE genetic algorithm face recognition
原文传递
上一页 1 2 19 下一页 到第
使用帮助 返回顶部