摘要
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。
Data preprocessing is the chief process in the Web log mining. This article advances a kind of popular model of data preprocessing, which divides data preprocessing into five steps: data cleaning, user identification, session identification and format conversion. This model has been tested on the tour Web,which has been proved to be completely feasible,good versatility and extensibility.
出处
《现代电子技术》
2007年第4期103-105,共3页
Modern Electronics Technique
关键词
WEB日志挖掘
数据挖掘
数据预处理
用户标识
会话标识
Web log mining
data mining
data preprocessing
user identification
session identification