-
题名二次幂耦合的K-means聚类算法研究
被引量:6
- 1
-
-
作者
相益萱
姜合
潘品臣
孙聪慧
-
机构
齐鲁工业大学(山东省科学院)计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第14期95-102,共8页
-
基金
国家自然科学青年基金(61502259)。
-
文摘
在聚类研究中,通常认为数据集的对象、属性等方面是满足独立同分布的,它们之间是互不影响的,然而实际上它们之间存在着某些潜在的联系,即非独立同分布。为了更好地挖掘其存在的潜在关系,将数据集进行二次幂处理,计算皮尔森相关系数后得到二次幂耦合的数据集样本,为了解决K-means聚类算法存在选取初始中心点的敏感性问题,基于密度的思想,通过计算密度参数合理调整高密度区域,利用聚类迭代的方法进行选点,将高密度区域中的密度最大点作为初始点,距离初始点最远点作为第二个点,以前两个点为中心聚类迭代得到两个质心,将距离两个质心最远的点作为第三点,以此类推,实验结果表明所给的算法能够得到较高的准确率,较少的迭代次数,以及相对较好的聚类效果。
-
关键词
非独立同分布
二次幂耦合
皮尔森相关系数
聚类迭代
K-MEANS聚类算法
-
Keywords
non-IID(Independent and Identically Distributed)
quadratic power coupling
Pearson correlation coefficient
clustering iteration
K-means clustering algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名非独立同分布下数值型数据的KNN算法改进
被引量:2
- 2
-
-
作者
孙聪慧
姜合
相益萱
-
机构
齐鲁工业大学(山东省科学院)计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2021年第10期2816-2822,共7页
-
基金
国家自然科学基金青年基金项目(61502259)。
-
文摘
为挖掘数据的非独立同分布关系并解决传统KNN算法中存在的分类结果不准确的问题,提出一种非独立同分布下数值型数据的KNN改进算法。利用Pearson相关系数公式得出耦合相似度矩阵,通过该耦合相似度矩阵计算样本的类隶属度,通过ReliefF算法思想进行特征权重的计算,根据训练样本的类隶属度和特征权重更新类别决策规则,确定待分类样本的类别。对多个UCI数据集的验证结果表明,该算法能够有效提高分类准确率。
-
关键词
非独立同分布
KNN算法
Pearson相关系数
类隶属度
特征权重
-
Keywords
non-independent and identical distribution
KNN algorithm
Pearson correlation coefficient
class membership
feature weighting
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-