-
题名基于熵加权子空间算法的旅游数据聚类分析
- 1
-
-
作者
陈丹
褚宏伟
吴雅琴
胡俊
-
机构
云南大学数学与统计学院
云南农业大学理学院
-
出处
《旅游研究》
2021年第5期18-31,共14页
-
基金
国家社会科学基金一般项目“大数据背景下户外旅游数据分析方法研究”(17BTJ038)。
-
文摘
大数据背景下,高维旅游数据的急剧增长使得传统聚类算法效果欠佳,而熵加权子空间算法可有效地实现高维数据聚类,获取特征对不同类的影响,从而提升聚类效果。文章通过爬取同程网上的部分云南游记数据,获取有关云南旅游的游记信息;借助中文分词、关键词提取、词性识别等自然语言处理技术,并结合百度地图API游记信息,构建所需旅游数据矩阵;基于用户—关键词矩阵,采用熵加权子空间算法对旅游景点和作者进行聚类;综合考虑邓恩指数和轮廓系数两个内部指标,对聚类结果进行评价。评价结果表明:采用熵加权子空间算法对云南游记数据聚类时,其集簇个数为3的效果最好。
-
关键词
熵加权子空间算法
旅游数据
子空间聚类
数据挖掘
-
Keywords
entropy weighting k-means subspace algorithm
Yunnan tourism data
subspace clustering
data mining
-
分类号
F59
[经济管理—旅游管理]
-