-
题名属性加权的类属型数据非模聚类
被引量:7
- 1
-
-
作者
陈黎飞
郭躬德
-
机构
福建师范大学数学与计算机科学学院
-
出处
《软件学报》
EI
CSCD
北大核心
2013年第11期2628-2641,共14页
-
基金
国家自然科学基金(61175123)
-
文摘
类属型数据广泛分布于生物信息学等许多应用领域,其离散取值的特点使得类属数据聚类成为统计机器学习领域一项困难的任务.当前的主流方法依赖于类属属性的模进行聚类优化和相关属性的权重计算.提出一种非模的类属型数据统计聚类方法.首先,基于新定义的相异度度量,推导了属性加权的类属数据聚类目标函数.该函数以对象与簇之间的平均距离为基础,从而避免了现有方法以模为中心导致的问题.其次,定义了一种类属型数据的软子空间聚类算法.该算法在聚类过程中根据属性取值的总体分布,而不仅限于属性的模,赋予每个属性衡量其与簇类相关程度的权重,实现自动的特征选择.在合成数据和实际应用数据集上的实验结果表明,与现有的基于模的聚类算法和基于蒙特卡罗优化的其他非模算法相比,该算法有效地提高了聚类结果的质量.
-
关键词
聚类
类属型数据
模
属性加权
-
Keywords
clustering
categorical data
mode
attribute weighting
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名类属型数据核子空间聚类算法
被引量:5
- 2
-
-
作者
徐鲲鹏
陈黎飞
孙浩军
王备战
-
机构
福建师范大学数学与信息学院
数字福建环境监测物联网实验室(福建师范大学)
汕头大学工学院
厦门大学软件学院
-
出处
《软件学报》
EI
CSCD
北大核心
2020年第11期3492-3505,共14页
-
基金
国家自然科学基金(U1805263,61672157)
福建省科技厅项目(JK2017007)
福建师范大学创新团队项目(IRTL1704)。
-
文摘
现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量.
-
关键词
聚类
类属型数据
核方法
非线性度量
子空间
-
Keywords
clustering
categorical data
kernel method
nonlinear measure
subspace
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名核密度估计的聚类算法
被引量:14
- 3
-
-
作者
朱杰
陈黎飞
-
机构
中国西南电子技术研究所
福建师范大学数学与计算机科学学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2017年第5期439-447,共9页
-
基金
国家自然科学基金项目(No.61672157)
福建省自然科学基金项目(No.2015J01238)资助~~
-
文摘
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.
-
关键词
类属型数据聚类
概率模型
相似性度量
核密度估计(KDE)
带宽估计
-
Keywords
Categorical Data Clustering, Probability Estimation ( KDE), Bandwidth Estimation Model, Similarity Measure, Kernel Density
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-