期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
Analyzing Differences between Online Learner Groups during the COVID-19 Pandemic through K-Prototype Clustering
1
作者 Guanggong Ge Quanlong Guan +2 位作者 Lusheng Wu Weiqi Luo Xingyu Zhu 《Journal of Data Analysis and Information Processing》 2022年第1期22-42,共21页
Online learning is a very important means of study, and has been adopted in many countries worldwide. However, only recently are researchers able to collect and analyze massive online learning datasets due to the COVI... Online learning is a very important means of study, and has been adopted in many countries worldwide. However, only recently are researchers able to collect and analyze massive online learning datasets due to the COVID-19 epidemic. In this article, we analyze the difference between online learner groups by using an unsupervised machine learning technique, i.e., k-prototypes clustering. Specifically, we use questionnaires designed by domain experts to collect various online learning data, and investigate students’ online learning behavior and learning outcomes through analyzing the collected questionnaire data. Our analysis results suggest that students with better learning media generally have better online learning behavior and learning result than those with poor online learning media. In addition, both in economically developed or undeveloped regions, the number of students with better learning media is less than the number of students with poor learning media. Finally, the results presented here show that whether in an economically developed or an economically undeveloped region, the number of students who are enriched with learning media available is an important factor that affects online learning behavior and learning outcomes. 展开更多
关键词 Online Learning k-prototypes clustering Economically Developed Region data Analysis Different Groups Learning Behavior Learning Media
下载PDF
A Topological Clustering of Variables
2
作者 Rafik Abdesselam 《Journal of Mathematics and System Science》 2021年第2期1-17,共17页
The clustering of objects(individuals or variables)is one of the most used approaches to exploring multivariate data.The two most common unsupervised clustering strategies are hierarchical ascending clustering(HAC)and... The clustering of objects(individuals or variables)is one of the most used approaches to exploring multivariate data.The two most common unsupervised clustering strategies are hierarchical ascending clustering(HAC)and k-means partitioning used to identify groups of similar objects in a dataset to divide it into homogeneous groups.The proposed topological clustering of variables,called TCV,studies an homogeneous set of variables defined on the same set of individuals,based on the notion of neighborhood graphs,some of these variables are more-or-less correlated or linked according to the type quantitative or qualitative of the variables.This topological data analysis approach can then be useful for dimension reduction and variable selection.It’s a topological hierarchical clustering analysis of a set of variables which can be quantitative,qualitative or a mixture of both.It arranges variables into homogeneous groups according to their correlations or associations studied in a topological context of principal component analysis(PCA)or multiple correspondence analysis(MCA).The proposed TCV is adapted to the type of data considered,its principle is presented and illustrated using simple real datasets with quantitative,qualitative and mixed variables.The results of these illustrative examples are compared to those of other variables clustering approaches. 展开更多
关键词 Hierarchical clustering proximity measure neighborhood graph adjacency matrix multivariate quantitative qualitative and mixed data analysis dimension reduction
下载PDF
A Novel Cluster Analysis-Based Crop Dataset Recommendation Method in Precision Farming
3
作者 K.R.Naveen Kumar Husam Lahza +4 位作者 B.R.Sreenivasa Tawfeeq Shawly Ahmed A.Alsheikhy H.Arunkumar C.R.Nirmala 《Computer Systems Science & Engineering》 SCIE EI 2023年第9期3239-3260,共22页
Data mining and analytics involve inspecting and modeling large pre-existing datasets to discover decision-making information.Precision agriculture uses datamining to advance agricultural developments.Many farmers are... Data mining and analytics involve inspecting and modeling large pre-existing datasets to discover decision-making information.Precision agriculture uses datamining to advance agricultural developments.Many farmers aren’t getting the most out of their land because they don’t use precision agriculture.They harvest crops without a well-planned recommendation system.Future crop production is calculated by combining environmental conditions and management behavior,yielding numerical and categorical data.Most existing research still needs to address data preprocessing and crop categorization/classification.Furthermore,statistical analysis receives less attention,despite producing more accurate and valid results.The study was conducted on a dataset about Karnataka state,India,with crops of eight parameters taken into account,namely the minimum amount of fertilizers required,such as nitrogen,phosphorus,potassium,and pH values.The research considers rainfall,season,soil type,and temperature parameters to provide precise cultivation recommendations for high productivity.The presented algorithm converts discrete numerals to factors first,then reduces levels.Second,the algorithm generates six datasets,two fromCase-1(dataset withmany numeric variables),two from Case-2(dataset with many categorical variables),and one from Case-3(dataset with reduced factor variables).Finally,the algorithm outputs a class membership allocation based on an extended version of the K-means partitioning method with lambda estimation.The presented work produces mixed-type datasets with precisely categorized crops by organizing data based on environmental conditions,soil nutrients,and geo-location.Finally,the prepared dataset solves the classification problem,leading to a model evaluation that selects the best dataset for precise crop prediction. 展开更多
关键词 data mining crop prediction k-prototypes K-MEANS cluster machine learning
下载PDF
一种融合α度量的混合数据K-prototypes算法 被引量:1
4
作者 陈佳佳 张旺 +1 位作者 刘东海 张晓琴 《统计与决策》 北大核心 2023年第10期16-22,共7页
在大数据背景下,分类型数据与混合型数据开始大量出现,如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式,模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异... 在大数据背景下,分类型数据与混合型数据开始大量出现,如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式,模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异性等优点而得到推广使用。模糊类中心是定和为1的频率向量,这同时也符合成分数据的定义,因此,文章引入成分数据处理方式,提出一种融合α度量的改进K-prototypes算法(α-K-prototypes)。针对α度量的特殊性设定了权重调整系数,让分类型数据距离更具有解释性。在实验对比后发现,α-K-prototypes算法在UCI的7个数据集上均优于K-prototypes、K-centers、Improved-K-prototypes算法。为了更好地在实际中应用,文章给出了一种较优α计算准则,并证明其在统计意义上是显著的。 展开更多
关键词 聚类分析 成分数据 混合数据 模糊类中心
下载PDF
基于K-prototypes的混合属性数据聚类算法 被引量:14
5
作者 陈韡 王雷 蒋子云 《计算机应用》 CSCD 北大核心 2010年第8期2003-2005,2110,共4页
通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英... 通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英语借词数据的聚类分析中。实验结果表明,与K-prototypes算法相比,改进后的算法具有更好的稳定性和更高的精度。 展开更多
关键词 聚类 k-prototypes算法 混合属性数据 相异度
下载PDF
基于信息熵的粗糙K-prototypes聚类算法 被引量:4
6
作者 欧阳浩 戴喜生 +1 位作者 王智文 王萌 《计算机工程与设计》 北大核心 2015年第5期1239-1243,共5页
针对传统K-prototypes在计算分类属性的差异度时未考虑各个分类属性对聚类结果的影响程度,且算法容易受到噪声的干扰,无法处理数据中不够精确、不完整等不确定性问题,提出基于信息熵的粗糙K-prototypes聚类算法。在计算数据样本之间分... 针对传统K-prototypes在计算分类属性的差异度时未考虑各个分类属性对聚类结果的影响程度,且算法容易受到噪声的干扰,无法处理数据中不够精确、不完整等不确定性问题,提出基于信息熵的粗糙K-prototypes聚类算法。在计算数据样本之间分类属性的差异度时,使用信息熵的理论,确定每个分类属性对于聚类分析结果的影响权重;引入粗糙理论,计算得到各样本与粗糙模之间的粗糙相异度,通过多次迭代计算,获得最终聚类结果。该算法结合信息熵和粗糙理论,可区别对待各分类属性,解决数据不精确引起的不确定性问题,4个UCI数据集上的实验分析结果验证了该算法的有效性。 展开更多
关键词 混合型数据 聚类 信息熵 粗糙集 数据挖掘
下载PDF
结构化模糊K-prototypes聚类算法 被引量:2
7
作者 汪加才 文巨峰 +1 位作者 陈奇 俞瑞钊 《计算机科学》 CSCD 北大核心 2005年第5期155-158,共4页
尽管综合了K-means和K-modes的K-prototypes算法已能有效地处理符号数据,但用聚类中的符号模(modes)来表示聚类中的数据均值将引起大量的信息丢失。为此,本文提出了一种适合于混合类型数据的结构化模糊K-prototypes算法(SFKP),在不增加... 尽管综合了K-means和K-modes的K-prototypes算法已能有效地处理符号数据,但用聚类中的符号模(modes)来表示聚类中的数据均值将引起大量的信息丢失。为此,本文提出了一种适合于混合类型数据的结构化模糊K-prototypes算法(SFKP),在不增加时空开销的情况下提高聚类能力。实际数据集上的实验结果显示,SFKP算法能够进行更加有效的聚类。 展开更多
关键词 结构化 聚类算法 符号数据 信息丢失 混合类型 数据集
下载PDF
一种改进的加权K-prototypes算法 被引量:4
8
作者 刘强 邓磊 +1 位作者 贾振红 覃锡忠 《激光杂志》 CAS CSCD 北大核心 2014年第1期18-20,共3页
为了提高K-prototypes算法的聚类准确度,解决其随机选取聚类中心初始值导至的聚类精度较低和聚类结果不稳定的问题。通过对混合属性数据聚类算法的研究,对K-prototypes算法做了进一步的改进。提出了混合属性聚类的初始聚类中心确定方法... 为了提高K-prototypes算法的聚类准确度,解决其随机选取聚类中心初始值导至的聚类精度较低和聚类结果不稳定的问题。通过对混合属性数据聚类算法的研究,对K-prototypes算法做了进一步的改进。提出了混合属性聚类的初始聚类中心确定方法,并且通过加权算法改进了相异度计算公式。最后用UCI数据集对算法进行检验,结果表明,改进的加权K-prototype算法更加稳定,并具有较高的聚类精度。 展开更多
关键词 数据挖掘 混合属性 聚类 权重调整
下载PDF
一种基于k-prototype的多层次聚类改进算法 被引量:1
9
作者 李士进 朱跃龙 刘净 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第3期342-347,共6页
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进... 针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现. 展开更多
关键词 聚类 混合数据 多层次聚类 k-prototype聚类
下载PDF
混合属性数据k-prototypes聚类算法 被引量:3
10
作者 余文利 余建军 方建文 《计算机系统应用》 2015年第6期168-172,共5页
在现实世界中经常遇到混合数值属性和分类属性的数据,k-prototypes是聚类该类型数据的主要算法之一.针对现有混合属性聚类算法的不足,提出一种基于分布式质心和新差异测度的改进的k-prototypes算法.在新算法中,首先引入分布式质心来表... 在现实世界中经常遇到混合数值属性和分类属性的数据,k-prototypes是聚类该类型数据的主要算法之一.针对现有混合属性聚类算法的不足,提出一种基于分布式质心和新差异测度的改进的k-prototypes算法.在新算法中,首先引入分布式质心来表示簇中的分类属性的簇中心,然后结合均值和分布式质心来表示混合属性的簇中心,并提出一种新的差异测度来计算数据对象与簇中心的距离,新差异测度考虑了不同属性在聚类过程中的重要性.在三个真实数据集上的仿真实验表明,与传统的聚类算法相比,本文算法的聚类精度要优于传统的聚类算法,从而验证了本文算法的有效性. 展开更多
关键词 聚类 分布式质心 混合型数据 新差异测度 属性重要性
下载PDF
基于平均差异度的改进k-prototypes聚类算法 被引量:4
11
作者 石鸿雁 徐明明 《沈阳工业大学学报》 EI CAS 北大核心 2019年第5期555-559,共5页
针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中... 针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中心点选取的随机性,同时利用信息熵确定数值数据的属性权重,并对分类属性度量公式进行改进,给出了一种混合属性数据度量公式.结果表明,改进后的算法具有较高的准确率,能够有效处理混合属性数据. 展开更多
关键词 k-prototypes算法 聚类 初始聚类中心 混合属性数据 平均差异度 信息熵 属性权重 度量公式
下载PDF
基于信息增益的模糊K-prototypes聚类算法
12
作者 欧阳浩 王智文 +1 位作者 戴喜生 刘智琦 《计算机工程与科学》 CSCD 北大核心 2015年第5期1009-1014,共6页
K-prototypes聚类算法结合了K-means算法和K-modes算法,可用于分析混合属性的数据对象。传统的K-prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用... K-prototypes聚类算法结合了K-means算法和K-modes算法,可用于分析混合属性的数据对象。传统的K-prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用了信息论中信息增益的计算方法,来获得各个属性的权值。在计算各属性的差异度时,乘以这些权值,从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力,本算法引用了模糊理论,从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验,表明了本算法的有效性。 展开更多
关键词 聚类 信息增益 模糊k-prototypes算法 混合型数据
下载PDF
基于k-prototype聚类的差分隐私混合数据发布算法 被引量:8
13
作者 屈晶晶 蔡英 +1 位作者 范艳芳 夏红科 《计算机科学与探索》 CSCD 北大核心 2021年第1期109-118,共10页
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类... 差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。 展开更多
关键词 差分隐私 混合数据集 k-prototype 聚类 数据发布
下载PDF
DCKPDP:改进k-prototype聚类的差分隐私混合属性数据发布方法 被引量:6
14
作者 张星 张兴 《计算机应用研究》 CSCD 北大核心 2022年第1期249-253,共5页
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算... 当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。 展开更多
关键词 差分隐私 混合属性数据 k-prototype聚类 密度优化 信息熵
下载PDF
基于改进式k-prototypes聚类的坏数据辨识与修正 被引量:4
15
作者 王孝慈 董树锋 +2 位作者 刘育权 王莉 李俊格 《电测与仪表》 北大核心 2022年第2期9-15,共7页
工业领域很多技术的实现都以准确的负荷数据为基础,而工厂现有的负荷数据测量体系常因为通信、存储等故障,导致负荷数据中出现大量坏数据。因此,提出基于改进式k-prototypes聚类的坏数据辨识与修正方法,通过在聚类中引入非负荷数据特征... 工业领域很多技术的实现都以准确的负荷数据为基础,而工厂现有的负荷数据测量体系常因为通信、存储等故障,导致负荷数据中出现大量坏数据。因此,提出基于改进式k-prototypes聚类的坏数据辨识与修正方法,通过在聚类中引入非负荷数据特征,削弱负荷坏数据对聚类结果的影响,使坏数据辨识和修复结果更准确。改进式k-prototypes算法通过随机初始化,并行计算择优,克服了标准k-prototypes容易随初始聚类中心陷入局部最优解的缺陷;并通过聚类数量的自适应处理,解决了主观决定聚类数量的问题。基于聚类结果,根据正态分布原则确定负荷数据可行域,识别坏数据,并利用类中心置换法进行修正。实验表明,该方法较只考虑负荷数据的模糊均值聚类法效果更好,坏数据识别的召回率与修正的准确率显著提高。 展开更多
关键词 k-prototypes聚类 混合数据集聚类 坏数据辨识 类中心置换修正法 工业负荷预处理
下载PDF
Nonparametric Estimation in Linear Mixed Models with Uncorrelated Homoscedastic Errors
16
作者 Eugène-Patrice Ndong Nguéma Betrand Fesuh Nono Henri Gwét 《Open Journal of Statistics》 2021年第4期558-605,共48页
Today, Linear Mixed Models (LMMs) are fitted, mostly, by assuming that random effects and errors have Gaussian distributions, therefore using Maximum Likelihood (ML) or REML estimation. However, for many data sets, th... Today, Linear Mixed Models (LMMs) are fitted, mostly, by assuming that random effects and errors have Gaussian distributions, therefore using Maximum Likelihood (ML) or REML estimation. However, for many data sets, that double assumption is unlikely to hold, particularly for the random effects, a crucial component </span></span><span style="font-family:Verdana;"><span style="font-family:Verdana;"><span style="font-family:Verdana;">in </span></span></span><span style="font-family:Verdana;"><span style="font-family:Verdana;"><span style="font-family:Verdana;">which assessment of magnitude is key in such modeling. Alternative fitting methods not relying on that assumption (as ANOVA ones and Rao</span></span></span><span style="font-family:Verdana;"><span style="font-family:Verdana;"><span style="font-family:Verdana;">’</span></span></span><span style="font-family:Verdana;"><span style="font-family:Verdana;"><span style="font-family:Verdana;">s MINQUE) apply, quite often, only to the very constrained class of variance components models. In this paper, a new computationally feasible estimation methodology is designed, first for the widely used class of 2-level (or longitudinal) LMMs with only assumption (beyond the usual basic ones) that residual errors are uncorrelated and homoscedastic, with no distributional assumption imposed on the random effects. A major asset of this new approach is that it yields nonnegative variance estimates and covariance matrices estimates which are symmetric and, at least, positive semi-definite. Furthermore, it is shown that when the LMM is, indeed, Gaussian, this new methodology differs from ML just through a slight variation in the denominator of the residual variance estimate. The new methodology actually generalizes to LMMs a well known nonparametric fitting procedure for standard Linear Models. Finally, the methodology is also extended to ANOVA LMMs, generalizing an old method by Henderson for ML estimation in such models under normality. 展开更多
关键词 clustered data Linear mixed Model Fixed Effect Uncorrelated Homoscedastic Error Random Effects Predictor
下载PDF
基于NMI-SC的糖尿病混合数据特征选择
17
作者 朱潘蕾 容芷君 +2 位作者 但斌斌 代超 吕生 《电子设计工程》 2024年第11期6-10,共5页
针对糖尿病预测精度受高维混合数据影响的问题,提出基于NMI-SC的糖尿病特征选择方法,通过邻域互信息(NMI)计算混合属性特征邻域半径内的联合概率密度,构建相似度矩阵,通过糖尿病特征之间的相似性构建无向图,基于谱聚类(SC)将糖尿病特征... 针对糖尿病预测精度受高维混合数据影响的问题,提出基于NMI-SC的糖尿病特征选择方法,通过邻域互信息(NMI)计算混合属性特征邻域半径内的联合概率密度,构建相似度矩阵,通过糖尿病特征之间的相似性构建无向图,基于谱聚类(SC)将糖尿病特征切分为多个特征相似组,实现非线性特征间的聚类,根据特征分类重要性选出相似组中的代表特征。并将其与原始特征集在支持向量机分类器上的准确率进行比较,该特征选择方法在删除46个冗余特征后,准确率提高了13.07%。实验结果表明,该方法能有效删除冗余特征,得到糖尿病分类性能优异的特征子集。 展开更多
关键词 特征选择 混合数据降维 邻域互信息 谱聚类
下载PDF
异构并行计算下高维混合型数据聚类算法研究
18
作者 祝鹏 《现代电子技术》 北大核心 2024年第9期139-142,共4页
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特... 高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K⁃Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K⁃Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K⁃Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 展开更多
关键词 异构并行计算 高维混合型数据 K⁃Prototypes聚类算法 欧氏距离 统计序列特征 负载平衡
下载PDF
基于滑动窗口的混合属性大数据聚类算法
19
作者 李志伟 侯敏杰 《信息与电脑》 2024年第5期49-52,共4页
文章研究了基于滑动窗口的混合属性大数据聚类算法,通过引入滑动窗口设计和相似度计算方法,有效提高了聚类的准确性和效率。实验结果表明,该算法在相关评价指标上均优于传统方法,特别是在处理大规模高维数据时表现出更好的性能。在未来... 文章研究了基于滑动窗口的混合属性大数据聚类算法,通过引入滑动窗口设计和相似度计算方法,有效提高了聚类的准确性和效率。实验结果表明,该算法在相关评价指标上均优于传统方法,特别是在处理大规模高维数据时表现出更好的性能。在未来的工作中,将继续深入研究滑动窗口的设计和参数选择,以进一步优化算法的性能。 展开更多
关键词 滑动窗口 混合属性 大数据 聚类算法
下载PDF
采用离群点检测技术的混合型数据聚类初始化方法 被引量:3
20
作者 杨志勇 江峰 +1 位作者 于旭 杜军威 《智能系统学报》 CSCD 北大核心 2023年第1期56-65,共10页
近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检... 近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density,IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。 展开更多
关键词 聚类初始化 混合型数据 离群点检测 邻域粗糙集 粒度邻域熵 距离离群因子 加权密度 加权距离
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部