-
题名基于K-Means算法的Web日志用户聚类研究
被引量:5
- 1
-
-
作者
陈洲
陆南
-
机构
江苏科技大学电子信息学院
-
出处
《计算机与数字工程》
2020年第3期643-647,共5页
-
文摘
Web日志作为服务器的记录文件,记录了网站最重要的信息,随着大数据时代数据量的骤然增加,提出一种应对大数据量的数据挖掘算法,更有效地分析日志文件迫在眉睫。用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,论文针对K-Means算法在选取初始中心点上存在的问题,以及在构建用户会话矩阵后存在的孤立点的问题,提出了一种密度参数和KCR算法的优化算法-ICKM算法,该算法利用密度参数最大的对象作为第一中心点,随后从数据集中将此对象删除,利用KCR算法寻找下一个中心点,算法借助MapReduce计算框架,提高大数据环境下的数据处理速度,通过实验表明,ICKM算法在寻找初始中心点以及用户聚类上具有较高的准确度,在处理大数据量的数据集时,有较好的的运算速度。
-
关键词
用户聚类
K-MEANS算法
kcr算法
MAPREDUCE
-
Keywords
User clustering
K-Means
kcr
MapReduce
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-