期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种可重叠子空间K-Means聚类算法 被引量:5
1
作者 刘宇航 马慧芳 +1 位作者 刘海姣 余丽 《计算机工程》 CAS CSCD 北大核心 2020年第8期58-63,71,共7页
现有聚类算法面向高维稀疏数据时多数未考虑类簇可重叠和离群点的存在,导致聚类效果不理想。为此,提出一种可重叠子空间K-Means聚类算法。设计类簇子空间计算策略,在聚类过程中动态更新每个类簇的属性子空间,并定义合理的约束函数指导... 现有聚类算法面向高维稀疏数据时多数未考虑类簇可重叠和离群点的存在,导致聚类效果不理想。为此,提出一种可重叠子空间K-Means聚类算法。设计类簇子空间计算策略,在聚类过程中动态更新每个类簇的属性子空间,并定义合理的约束函数指导聚类过程,从而实现类簇的可重叠性与离群点的控制。在此基础上定义合理的目标函数对传统K-Means算法进行修正,利用熵权约束分别计算每个类簇中各维度的权重,使用权重值标识不同类簇中维度的相对重要性,并加入控制重叠程度和离群值数量的参数。在人工数据集和真实数据集上的实验结果表明,该算法在NMI、F1指标上均优于EWKM、NEO-K-Means、OKM等子空间聚类算法,具有更好的聚类结果。 展开更多
关键词 目标函数 子空间聚类 离群点 熵权约束 k-means聚类算法
下载PDF
基于熵加权子空间算法的旅游数据聚类分析
2
作者 陈丹 褚宏伟 +1 位作者 吴雅琴 胡俊 《旅游研究》 2021年第5期18-31,共14页
大数据背景下,高维旅游数据的急剧增长使得传统聚类算法效果欠佳,而熵加权子空间算法可有效地实现高维数据聚类,获取特征对不同类的影响,从而提升聚类效果。文章通过爬取同程网上的部分云南游记数据,获取有关云南旅游的游记信息;借助中... 大数据背景下,高维旅游数据的急剧增长使得传统聚类算法效果欠佳,而熵加权子空间算法可有效地实现高维数据聚类,获取特征对不同类的影响,从而提升聚类效果。文章通过爬取同程网上的部分云南游记数据,获取有关云南旅游的游记信息;借助中文分词、关键词提取、词性识别等自然语言处理技术,并结合百度地图API游记信息,构建所需旅游数据矩阵;基于用户—关键词矩阵,采用熵加权子空间算法对旅游景点和作者进行聚类;综合考虑邓恩指数和轮廓系数两个内部指标,对聚类结果进行评价。评价结果表明:采用熵加权子空间算法对云南游记数据聚类时,其集簇个数为3的效果最好。 展开更多
关键词 熵加权子空间算法 旅游数据 子空间聚类 数据挖掘
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部