-
题名基于改进K-means的电商页面数据分析与挖掘
被引量:4
- 1
-
-
作者
叶昊
缪宜恒
张宏俊
-
机构
南京邮电大学现代邮政学院
南京邮电大学通信与信息工程学院
中国通信服务有限公司
南京邮电大学物联网学院
-
出处
《软件》
2023年第6期35-43,共9页
-
基金
江苏省研究生科研与实践创新计划项目(KYCX22_1019)。
-
文摘
数据挖掘技术是利用计算机强大的计算能力来代替部分人工分析的一项技术。传统的数据分析是人们利用自己的大脑对数据进行分析、思考和解读,但人脑所能承载的计算量是有限的。目前,计算机强大的计算能力代替了人脑,它们不仅可以处理一些不需要自主思考的增删改查类工作,有时还可以担任一些需要自我学习能力的任务,比如对网页数据进行高质量分析与挖掘。为了进一步探究网页数据分析与挖掘,本文提出了一种基于优化样本距离计算方法,从而改进了K-means算法的聚类中心计算方法。具体来说,本文获取常见电商页面“当当网”公开的以“手机”为关键词的近12000条数据,使用文本挖掘技术对其进行数据挖掘,对数据的文本信息进行清洗、中文分词以及关键词权重计算等全面预处理,最终使用聚类中心优化的K-means算法,挖掘看似毫无关联的数据集中的隐藏信息为电商用户提供市场导向。
-
关键词
电商页面
数据挖掘
数据预处理
中文文本聚类
-
Keywords
e-commerce page
data mining
data preprocessing
Chinese text clustering
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-