期刊文献+
共找到269篇文章
< 1 2 14 >
每页显示 20 50 100
Subspace Clustering in High-Dimensional Data Streams:A Systematic Literature Review
1
作者 Nur Laila Ab Ghani Izzatdin Abdul Aziz Said Jadid AbdulKadir 《Computers, Materials & Continua》 SCIE EI 2023年第5期4649-4668,共20页
Clustering high dimensional data is challenging as data dimensionality increases the distance between data points,resulting in sparse regions that degrade clustering performance.Subspace clustering is a common approac... Clustering high dimensional data is challenging as data dimensionality increases the distance between data points,resulting in sparse regions that degrade clustering performance.Subspace clustering is a common approach for processing high-dimensional data by finding relevant features for each cluster in the data space.Subspace clustering methods extend traditional clustering to account for the constraints imposed by data streams.Data streams are not only high-dimensional,but also unbounded and evolving.This necessitates the development of subspace clustering algorithms that can handle high dimensionality and adapt to the unique characteristics of data streams.Although many articles have contributed to the literature review on data stream clustering,there is currently no specific review on subspace clustering algorithms in high-dimensional data streams.Therefore,this article aims to systematically review the existing literature on subspace clustering of data streams in high-dimensional streaming environments.The review follows a systematic methodological approach and includes 18 articles for the final analysis.The analysis focused on two research questions related to the general clustering process and dealing with the unbounded and evolving characteristics of data streams.The main findings relate to six elements:clustering process,cluster search,subspace search,synopsis structure,cluster maintenance,and evaluation measures.Most algorithms use a two-phase clustering approach consisting of an initialization stage,a refinement stage,a cluster maintenance stage,and a final clustering stage.The density-based top-down subspace clustering approach is more widely used than the others because it is able to distinguish true clusters and outliers using projected microclusters.Most algorithms implicitly adapt to the evolving nature of the data stream by using a time fading function that is sensitive to outliers.Future work can focus on the clustering framework,parameter optimization,subspace search techniques,memory-efficient synopsis structures,explicit cluster change detection,and intrinsic performance metrics.This article can serve as a guide for researchers interested in high-dimensional subspace clustering methods for data streams. 展开更多
关键词 clustering subspace clustering projected clustering data stream stream clustering high dimensionality evolving data stream concept drift
下载PDF
CABOSFV algorithm for high dimensional sparse data clustering 被引量:7
2
作者 Sen Wu Xuedong Gao Management School, University of Science and Technology Beijing, Beijing 100083, China 《Journal of University of Science and Technology Beijing》 CSCD 2004年第3期283-288,共6页
An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV),was proposed for the high dimensional clustering of binary sparse data. This algorithm compressesthe data effectively by using a tool 'Sp... An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV),was proposed for the high dimensional clustering of binary sparse data. This algorithm compressesthe data effectively by using a tool 'Sparse Feature Vector', thus reduces the data scaleenormously, and can get the clustering result with only one data scan. Both theoretical analysis andempirical tests showed that CABOSFV is of low computational complexity. The algorithm findsclusters in high dimensional large datasets efficiently and handles noise effectively. 展开更多
关键词 clustering data mining SPARSE high dimensionality
下载PDF
CSFW-SC: Cuckoo Search Fuzzy-Weighting Algorithm for Subspace Clustering Applying to High-Dimensional Clustering 被引量:1
3
作者 WANG Jindong HE Jiajing +1 位作者 ZHANG Hengwei YU Zhiyong 《China Communications》 SCIE CSCD 2015年第S2期55-63,共9页
Aimed at the issue that traditional clustering methods are not appropriate to high-dimensional data, a cuckoo search fuzzy-weighting algorithm for subspace clustering is presented on the basis of the exited soft subsp... Aimed at the issue that traditional clustering methods are not appropriate to high-dimensional data, a cuckoo search fuzzy-weighting algorithm for subspace clustering is presented on the basis of the exited soft subspace clustering algorithm. In the proposed algorithm, a novel objective function is firstly designed by considering the fuzzy weighting within-cluster compactness and the between-cluster separation, and loosening the constraints of dimension weight matrix. Then gradual membership and improved Cuckoo search, a global search strategy, are introduced to optimize the objective function and search subspace clusters, giving novel learning rules for clustering. At last, the performance of the proposed algorithm on the clustering analysis of various low and high dimensional datasets is experimentally compared with that of several competitive subspace clustering algorithms. Experimental studies demonstrate that the proposed algorithm can obtain better performance than most of the existing soft subspace clustering algorithms. 展开更多
关键词 high-dimensional data clustering soft SUBSPACE CUCKOO SEARCH FUZZY clustering
下载PDF
New Clustering Method in High-Di mensional Space Based on Hypergraph-Models 被引量:1
4
作者 陈建斌 王淑静 宋瀚涛 《Journal of Beijing Institute of Technology》 EI CAS 2006年第2期156-161,共6页
To overcome the limitation of the traditional clustering algorithms which fail to produce meaningful clusters in high-dimensional, sparseness and binary value data sets, a new method based on hypergraph model is propo... To overcome the limitation of the traditional clustering algorithms which fail to produce meaningful clusters in high-dimensional, sparseness and binary value data sets, a new method based on hypergraph model is proposed. The hypergraph model maps the relationship present in the original data in high dimensional space into a hypergraph. A hyperedge represents the similarity of attrlbute-value distribution between two points. A hypergraph partitioning algorithm is used to find a partitioning of the vertices such that the corresponding data items in each partition are highly related and the weight of the hyperedges cut by the partitioning is minimized. The quality of the clustering result can be evaluated by applying the intra-cluster singularity value. Analysis and experimental results have demonstrated that this approach is applicable and effective in wide ranging scheme. 展开更多
关键词 high-dimensional clustering hypergraph model data mining
下载PDF
Dimensionality Reduction of High-Dimensional Highly Correlated Multivariate Grapevine Dataset
5
作者 Uday Kant Jha Peter Bajorski +3 位作者 Ernest Fokoue Justine Vanden Heuvel Jan van Aardt Grant Anderson 《Open Journal of Statistics》 2017年第4期702-717,共16页
Viticulturists traditionally have a keen interest in studying the relationship between the biochemistry of grapevines’ leaves/petioles and their associated spectral reflectance in order to understand the fruit ripeni... Viticulturists traditionally have a keen interest in studying the relationship between the biochemistry of grapevines’ leaves/petioles and their associated spectral reflectance in order to understand the fruit ripening rate, water status, nutrient levels, and disease risk. In this paper, we implement imaging spectroscopy (hyperspectral) reflectance data, for the reflective 330 - 2510 nm wavelength region (986 total spectral bands), to assess vineyard nutrient status;this constitutes a high dimensional dataset with a covariance matrix that is ill-conditioned. The identification of the variables (wavelength bands) that contribute useful information for nutrient assessment and prediction, plays a pivotal role in multivariate statistical modeling. In recent years, researchers have successfully developed many continuous, nearly unbiased, sparse and accurate variable selection methods to overcome this problem. This paper compares four regularized and one functional regression methods: Elastic Net, Multi-Step Adaptive Elastic Net, Minimax Concave Penalty, iterative Sure Independence Screening, and Functional Data Analysis for wavelength variable selection. Thereafter, the predictive performance of these regularized sparse models is enhanced using the stepwise regression. This comparative study of regression methods using a high-dimensional and highly correlated grapevine hyperspectral dataset revealed that the performance of Elastic Net for variable selection yields the best predictive ability. 展开更多
关键词 high-dimensional data MULTI-STEP adaptive Elastic Net MINIMAX CONCAVE Penalty Sure Independence Screening Functional data Analysis
下载PDF
Outlier detection based on multi-dimensional clustering and local density
6
作者 SHOU Zhao-yu LI Meng-ya LI Si-min 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第6期1299-1306,共8页
Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outl... Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outlier. In this work, an effective outlier detection method based on multi-dimensional clustering and local density(ODBMCLD) is proposed. ODBMCLD firstly identifies the center objects by the local density peak of data objects, and clusters the whole dataset based on the center objects. Then, outlier objects belonging to different clusters will be marked as candidates of abnormal data. Finally, the top N points among these abnormal candidates are chosen as final anomaly objects with high outlier factors. The feasibility and effectiveness of the method are verified by experiments. 展开更多
关键词 data MINING OUTLIER DETECTION OUTLIER DETECTION method based on MULTI-dimensional clustering and local density (ODBMCLD) algorithm deviation DEGREE
下载PDF
非结构化高维大数据异常流量时间点挖掘算法
7
作者 解海燕 李杰 赵国栋 《计算机仿真》 2024年第7期474-478,共5页
非结构化数据的维度较高,每个样本数据包含的特征非常多,导致了维度灾难问题,使得降低维度并保持有效特征提取难度较大,影响大数据流量异常时间点挖掘的精度。为此,提出新的基于空间映射的非结构化高维大数据流量异常时间点挖掘方法。... 非结构化数据的维度较高,每个样本数据包含的特征非常多,导致了维度灾难问题,使得降低维度并保持有效特征提取难度较大,影响大数据流量异常时间点挖掘的精度。为此,提出新的基于空间映射的非结构化高维大数据流量异常时间点挖掘方法。通过近似解集的几何特征建立稀疏回归模型,求解高维目标空间映射到低维目标子空间的稀疏投影矩阵。根据密度分布选择出一个高密度集合作为聚类中心的候选集,确定聚类的初始聚类中心。同时对聚类形成的各个簇采用剪枝算法,选择时间点候选集,对候选集展开二次判断,挖掘高维大数据流量异常时间点。实验结果表明,数据的降维能有效提高流量异常挖掘精度。相比之下,所提方法的高维大数据流量异常时间点挖掘更加精准,耗时更短。 展开更多
关键词 非结构化数据 高维大数据 流量 异常时间点 挖掘方法
下载PDF
基于子空间的I-nice聚类算法
8
作者 何一帆 何玉林 +1 位作者 崔来中 黄哲学 《计算机科学》 CSCD 北大核心 2024年第6期153-160,共8页
高维数据的子空间聚类是无监督学习领域的热点研究问题,其难点在于寻找恰当的子空间以及其中的数据簇。大多数现有的子空间聚类算法均存在计算复杂度高和参数选择难的缺陷,这是因为在高维数据中子空间的组合数量很大,算法的执行时间非常... 高维数据的子空间聚类是无监督学习领域的热点研究问题,其难点在于寻找恰当的子空间以及其中的数据簇。大多数现有的子空间聚类算法均存在计算复杂度高和参数选择难的缺陷,这是因为在高维数据中子空间的组合数量很大,算法的执行时间非常长,且不同数据集和应用场景需要不同的参数设定。为此,提出了基于子空间的I-nice(简记为sub-I-nice)聚类算法用于识别高维数据中子空间内数据簇的个数。首先,该算法将原始数据维度随机划分成多个维度组,根据维度组生成子空间样本;接着,使用最新的I-niceMO算法对每个子空间数据进行聚类;最后,采用新设计的球模型对所有子空间的基聚类结果进行集成。在含有噪声的高维仿真数据集上对所提出的sub-I-nice算法进行了详细的性能验证,实验结果表明sub-I-nice算法相比其他3种代表性聚类算法有更好的准确性和鲁棒性,从而证实了其合理性和有效性。 展开更多
关键词 子空间聚类 I-nice聚类 高维数据 无监督学习 球模型
下载PDF
非参数可加模型的迭代自适应稳健变量选择
9
作者 朱能辉 尤进红 徐群芳 《应用概率统计》 CSCD 北大核心 2024年第2期201-228,共28页
本文结合稳健损失函数、B样条逼近和自适应组Lasso研究一个高维可加模型,以识别“大p小n”下的不显著协变量.与传统的最小二乘自适应组Lasso相比,该方法具有较好的抵消重尾误差和异常值的影响.为证明方便,本文进一步考虑了更一般的加权... 本文结合稳健损失函数、B样条逼近和自适应组Lasso研究一个高维可加模型,以识别“大p小n”下的不显著协变量.与传统的最小二乘自适应组Lasso相比,该方法具有较好的抵消重尾误差和异常值的影响.为证明方便,本文进一步考虑了更一般的加权稳健组Lasso估计,且该权向量对所建议的估计量具有模型选择oracle性质和渐近正态性的证明中起着关键作用.稳健组Lasso和自适应稳健组Lasso可以看作是加权稳健组Lasso在不同权向量下的特殊情况.在实际应用中,我们使用稳健组Lasso获得初始估计以降低问题的维数,然后使用迭代自适应稳健组Lasso选择非零分量.数值结果表明,所提出的方法对中等规模的样本具有良好的适用性.高维基因TRIM32数据验证了该方法的应用. 展开更多
关键词 自适应组Lasso 高维数据 非参数回归 oracle性质 稳健估计
下载PDF
异构并行计算下高维混合型数据聚类算法研究 被引量:1
10
作者 祝鹏 《现代电子技术》 北大核心 2024年第9期139-142,共4页
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特... 高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K⁃Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K⁃Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K⁃Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 展开更多
关键词 异构并行计算 高维混合型数据 K⁃Prototypes聚类算法 欧氏距离 统计序列特征 负载平衡
下载PDF
具Robin条件的高维扩散方程反问题正则化算法
11
作者 郭琴 徐定华 《宁夏大学学报(自然科学版)》 CAS 2024年第2期97-106,共10页
初始热场和热源同时识别问题是一类热传导方程反问题.通过两个固定时刻的温度测量数据同时反演初始温度和热源项,提出了改进的正则化方法,获得了稳定化算法,给出了正则化参数的选取策略及正则化解的误差估计,对带噪声干扰的测量数据进... 初始热场和热源同时识别问题是一类热传导方程反问题.通过两个固定时刻的温度测量数据同时反演初始温度和热源项,提出了改进的正则化方法,获得了稳定化算法,给出了正则化参数的选取策略及正则化解的误差估计,对带噪声干扰的测量数据进行预处理以提高数据精度.数值算例验证了算法的有效性. 展开更多
关键词 高维热传导方程 Robin边界条件 改进正则化方法 数据预处理 误差估计
下载PDF
基于特征聚类和等距映射的无监督特征选择算法
12
作者 段立娟 郭亚静 +1 位作者 解晨瑶 张文博 《北京工业大学学报》 CAS CSCD 北大核心 2024年第3期325-332,共8页
为了提高无标签场景下特征选择的准确率和稳定性,提出一种基于特征聚类和等距映射的无监督特征选择算法。特征聚类将相似性较高的特征聚成一类,然后结合等距映射和稀疏系数矩阵定义新的特征得分计量函数。该函数对各特征簇中的特征进行... 为了提高无标签场景下特征选择的准确率和稳定性,提出一种基于特征聚类和等距映射的无监督特征选择算法。特征聚类将相似性较高的特征聚成一类,然后结合等距映射和稀疏系数矩阵定义新的特征得分计量函数。该函数对各特征簇中的特征进行打分,选择出每个类簇中得分最高的代表特征,构成特征子集。在14个广泛应用的数据集上的实验结果表明:本文所提算法能够选择出具有强分类能力的特征,且算法具有很强的泛化性。 展开更多
关键词 特征选择方法 多源数据集 高维特征 无标签场景 特征聚类 等距映射
下载PDF
基于密度峰值的高维电力负荷数据聚类方法
13
作者 郭晓霞 刘佳易 程昱舒 《电子设计工程》 2024年第20期103-106,111,共5页
由于电力能源应用量的暴增,电力负荷数据体量也逐渐加大,隐藏信息挖掘难度越来越大,对负荷数据处理技术提出了更高的要求,为此提出基于密度峰值的高维电力负荷数据聚类方法。深入剖析电力负荷数据特征,检测并修正其中的异常数据,去除负... 由于电力能源应用量的暴增,电力负荷数据体量也逐渐加大,隐藏信息挖掘难度越来越大,对负荷数据处理技术提出了更高的要求,为此提出基于密度峰值的高维电力负荷数据聚类方法。深入剖析电力负荷数据特征,检测并修正其中的异常数据,去除负荷曲线基荷部分,完成负荷数据的预处理。确定电力负荷数据局部密度计算公式,引入密度峰值聚类算法制定高维电力负荷数据聚类程序,执行指定程序即可获得负荷数据聚类结果。实验数据显示,应用提出方法后,DBI指标最小值为0.22,FMI指标最大值为0.96,表明其数据聚类效果更好,证实了提出方法的应用性能较佳。 展开更多
关键词 高维数据 数据聚类 密度峰值 电力负荷数据
下载PDF
多源异构高维数据特征加权子空间聚类算法
14
作者 郑灶贤 《电子设计工程》 2024年第20期191-195,共5页
多源异构高维数据存在噪声和异常值,导致聚类中心的确定难度较大。为解决该问题,提出多源异构高维数据特征加权子空间聚类算法。计算簇的所有维信息熵,按自适应函数获取子空间最小值,确定聚类特征子空间。对两簇子空间权重分配,计算两... 多源异构高维数据存在噪声和异常值,导致聚类中心的确定难度较大。为解决该问题,提出多源异构高维数据特征加权子空间聚类算法。计算簇的所有维信息熵,按自适应函数获取子空间最小值,确定聚类特征子空间。对两簇子空间权重分配,计算两簇相似度。通过相邻稠密单元格合并,确定质心,识别高维维度上的簇。利用数据之间互表示特性分析数据潜在低秩结构,提取数据中无杂质的低秩部分,构建多核子空间聚类目标函数。确定不同类数据之间欧氏距离,保证所有类簇融合为一类簇,实现全部子空间数据完全聚类。由实验结果可知,该算法聚类中心点与理想聚类中心点一致,且聚类结果能够达到理想效果。 展开更多
关键词 多源异构 高维数据 特征加权 子空间聚类
下载PDF
Knockoff方法研究进展综述
15
作者 袁攀旭 李高荣 《应用概率统计》 CSCD 北大核心 2024年第3期463-497,共35页
随着现代科学技术的快速发展,大数据时代正向我们走来.此时,统计方法的可重复性对于提高科学研究的严谨性至关重要.Barber和Candès[48]提出的knockoff方法是一种可结合任意特征重要性得分的变量选择算法,在发现真实效应的同时严格... 随着现代科学技术的快速发展,大数据时代正向我们走来.此时,统计方法的可重复性对于提高科学研究的严谨性至关重要.Barber和Candès[48]提出的knockoff方法是一种可结合任意特征重要性得分的变量选择算法,在发现真实效应的同时严格控制错误发现率(false discovery rate,FDR),其核心想法是构造称为knockoff的合成变量来模仿原始变量之间的相关结构.该方法无需计算p-值而在近年来受到广泛关注,成为当今统计和机器学习最热点的研究领域.本文主要介绍knockoff方法的最新研究进展,并简要探讨未来可能的研究方向. 展开更多
关键词 knockoff方法 多重假设检验 错误发现率 高维数据 稀疏性 变量选择 可重复性
下载PDF
高层建筑深基坑支护结构位移动态监测方法
16
作者 王贵美 周建亮 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第4期717-721,共5页
针对高层建筑深基坑支护结构位移监测时,位移轨迹、位移速率以及位移时间变化监测准确性较差问题,本文研究了高层建筑深基坑支护结构位移动态监测方法。对支护结构位移影响因素进行具体分析,生成了影响指标;再对基坑数据进行采集,建立... 针对高层建筑深基坑支护结构位移监测时,位移轨迹、位移速率以及位移时间变化监测准确性较差问题,本文研究了高层建筑深基坑支护结构位移动态监测方法。对支护结构位移影响因素进行具体分析,生成了影响指标;再对基坑数据进行采集,建立数据集并进行降维处理;计算获取目标函数,结合影响指标建立时间序列模型,依据对模型的计算建立动态变量矩阵;通过对矩阵的计算获取动态监测数据的统计量,完成支护结构的动态监测。研究结果表明:运用该方法进行监测时,位移移动轨迹监测误差为0.1,位移速率保持在0.9 mm/d以下,且与实际位移速率基本一致,纵向位移量达到202 mm,且与实际沉降量一致。本文方法能够有效应用于高层建筑深基坑支护结构的位移动态监测,为保障高层建筑的稳定性和安全性提供重要的技术支持。 展开更多
关键词 高层建筑 深基坑 支护结构 位移 动态监测 影响因素 数据降维 监测方法
下载PDF
新能源场站电力二次系统安全预警方法研究
17
作者 蒋亚坤 王彬筌 《自动化仪表》 CAS 2024年第4期87-91,共5页
新能源场站电力二次系统设备较多。其安全预警性相关数据存在明显高维性、复杂性的特点,不利于电力二次系统安全预警的效率和精度计算,导致预警性能较差。为此,提出新能源场站电力二次系统安全预警方法。采用拉普拉斯映射方法降低新能... 新能源场站电力二次系统设备较多。其安全预警性相关数据存在明显高维性、复杂性的特点,不利于电力二次系统安全预警的效率和精度计算,导致预警性能较差。为此,提出新能源场站电力二次系统安全预警方法。采用拉普拉斯映射方法降低新能源场站电力二次系统的电力数据维数,将高维数据源空间中的初始电力数据映射至低维子空间。分别计算在x、y、z方向上电力数据的行向量和对角权值,获取优化数据,为系统安全预警提供训练样本。从波动程度、时间序列变化趋势和能量随机分布特点三个角度,提取电力数据安全预警特征,并输入到K-means聚类算法中,以确定特征聚类中心、实现安全预警。试验结果表明:所提方法预警效率、预警精度较高。 展开更多
关键词 新能源场站 电力二次系统 特征提取 K-MEANS聚类算法 安全预警 高维数据源空间
下载PDF
CNN-ERI地质识别模型的研究与应用
18
作者 张腾 雷泉龙 +1 位作者 赵雨顺 华兴林 《黄河水利职业技术学院学报》 2024年第1期40-44,共5页
基建工程对地质勘探精度的要求不断提高,研究人工智能技术在地质勘探数据分析处理中的应用具有重要意义。基于卷积神经网络技术的数据降维处理功能,提出一种改进的CNN-ERI地质识别模型,分析了该模型在地质识别方面的优越性,探讨了数据... 基建工程对地质勘探精度的要求不断提高,研究人工智能技术在地质勘探数据分析处理中的应用具有重要意义。基于卷积神经网络技术的数据降维处理功能,提出一种改进的CNN-ERI地质识别模型,分析了该模型在地质识别方面的优越性,探讨了数据量和环境因素对模型识别精度的影响,并结合某隧洞工程,探析了模型的具体应用问题。 展开更多
关键词 高密度电法 卷积神经网络 数据降维处理功能 CNN-ERI地质识别模型 地质特征 精度分析
下载PDF
部分线性模型下Adaptive Dantzig Selector方法的渐近正态性
19
作者 李丹丹 刘琳 《纯粹数学与应用数学》 2018年第2期154-159,共6页
变量选择是处理超高维数据过程中重要的部分.本文提出部分线性模型下ADS(Adaptive Dantzig Selector)方法,并证明其渐近正态性.通过数值模拟以及大众点评网数据,验证此方法的可行性以及高精准性.
关键词 超高维数据 部分线性模型 adaptive Dantzig SELECTOR 渐近正态性
下载PDF
一种改进的自适应网格划分的分布式聚类算法 被引量:1
20
作者 蔡莉 王浩宇 +2 位作者 周君 何婧 刘俊晖 《小型微型计算机系统》 CSCD 北大核心 2023年第4期731-736,共6页
在众多聚类算法中,基于网格划分思想的聚类算法是较为常用的算法类型之一,但现有的算法对于处理海量高维数据而言,会存在以下两个问题:一是聚类结果的准确率较低;二是算法耗时较长.为了解决现有算法的不适应性,该文在网格聚类算法的基... 在众多聚类算法中,基于网格划分思想的聚类算法是较为常用的算法类型之一,但现有的算法对于处理海量高维数据而言,会存在以下两个问题:一是聚类结果的准确率较低;二是算法耗时较长.为了解决现有算法的不适应性,该文在网格聚类算法的基础上结合降维技术、自适应网格划分、相对熵和分布式计算,提出了一种改进的自适应网格划分的分布式聚类算法(AMCBS),可以较好解决以上问题.经实验证明,该算法对于D31标准数据集、UCI数据集、人脸图片数据集和GitHub文本数据集等的效果均优于常见的聚类算法,具有较好的准确率和较高的运行效率. 展开更多
关键词 聚类 自适应网格划分 相对熵 高维数据集 Spark平台
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部