摘要
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。
The sessions' identification is a key step in Web log mining.The accuracy of post-mining is influenced by the quality of the sessions' identification directly.In this paper,it analyzed three session identification algorithm in Data Preprocessing of Web Log Mining.Finally,threshold method is chosed on the session identification of Anhui Vocational College of Defense Technology's server log files.
出处
《中国西部科技》
2011年第4期28-29,15,共3页
Science and Technology of West China
基金
安徽国防科技职业学院基金项目--基于CMS平台的校园网站系统设计与实现(2009gfyz01)
关键词
WEB日志挖掘
数据预处理
会话识别
Web logmining
Data pre-processing
Sessions' identification