Web日志挖掘数据预处理优化被引量：4

An Improved Method for Data Preprocessing in Web Log Mining

下载PDF

导出

摘要在web日志挖掘中,数据预处理技术是各项工作的基础,此项内容将直接影响到后面的各个阶段,因此,也就显得至关重要。在已有的预处理方法基础上,选用了一种建立用户访问树的方法对用户进行识别,并且可以在缺乏网站拓扑结构的情况下对日志进行处理。提出了一种改进的事务处理方法,这可以在不额外增加步骤的基础上,能直接去除无用的事务,从而减少预处理结果对数据挖掘的影响,使得到的事务能更好地应用到模式分析当中,大大增强了后期挖掘的正确性。 In the web log mining, data preprocessing technique is crucial ,which is the basis of the work and will directly influence the later stages. In this paper, choose a method that establish a user access tree to identify the user, based on the existing pretreatment methods, which can take on by the lack of site topology in the case of the log processing. Also give an improved method of transaction processing ,which can remove unnecessary transaction derectly without additional steps, thereby reducing the pretreatment results on the impact of data mining to be better applied to the model analysis,to induce the correction on the late mining.

作者周爱武肖云封军

机构地区安徽大学计算机科学与技术学院

出处《计算机技术与发展》 2011年第1期42-45,共4页 Computer Technology and Development

基金安徽省教育科研重点项目(KJ2009A57)

关键词数据预处理 WEB日志用户识别事务识别 bata pre-processing web log mining user identification transaction identification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1赵伟,何丕廉,陈霞,谢振亮.Web日志挖掘中的数据预处理技术研究[J].计算机应用,2003,23(5):62-64. 被引量：62
2Cooley R, Mobasher B, Srivastava J. Data preparation for mining world wide web browsing patterns [ J ]. Knowledge and Information Systems, 1999,1 ( 1 ) :5-32.
3李烈彪,张海鹏,周亚峰.Web日志挖掘中数据预处理方法的研究[J].计算机技术与发展,2007,17(7):45-48. 被引量：15
4方元康,胡学钢,夏启寿.Web日志挖掘中数据预处理技术研究[J].安庆师范学院学报（自然科学版）,2008,14(3):107-110. 被引量：2
5熊忠阳,周亚峰.Web访问挖掘的预处理技术的研究[J].计算机技术与发展,2007,17(8):11-14. 被引量：19
6赵红玲,宋瀚涛,牛振东,刘桂山.Web日志挖掘中数据预处理的研究[J].计算机应用研究,2005,22(6):67-69. 被引量：20
7郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
8刘加伶,范军.基于用户访问树的Web日志挖掘数据预处理[J].计算机科学,2009,36(9):154-156. 被引量：8
9Facca F M, Lanzi P L. Mining Interesting Knowledge From Weblogs: a Survey [ J ]. Data and Knowledge Engineering, 2005,53 ( 3 ) :225-241.
10Catledge L,Pitkow J. Characterizing Browsing Strategies in the World Wide Web[ J]. Computer Networks and ISDN Systems, 1995,27 (6) : 1065 - 1073.

二级参考文献113

1费爱国,王新辉.一种基于Web日志文件的信息挖掘方法[J].计算机应用,2004,24(6):57-59. 被引量：24
2涂承胜,陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统,2004,25(7):1177-1184. 被引量：37
3郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
4易高翔,程耕国.数据挖掘在Web智能化中应用研究[J].计算机工程与设计,2005,26(1):58-60. 被引量：14
5杜家强,韩其睿,王科,杜家兴.Web日志中用户频繁路径快速挖掘算法[J].计算机工程与应用,2005,41(22):164-167. 被引量：12
6龚汉明,周长胜.一种Web挖掘的框架[J].计算机工程与设计,2005,26(8):2128-2130. 被引量：5
7邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2307. 被引量：52
8殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法[J].华中科技大学学报（自然科学版）,2006,34(7):33-35. 被引量：27
9纪良浩,王国胤,杨勇.基于协作过滤的Web日志数据预处理研究[J].重庆邮电学院学报（自然科学版）,2006,18(5):646-649. 被引量：9
10易芝,汪林林,王练.基于关联规则相关性分析的Web个性化推荐研究[J].重庆邮电大学学报（自然科学版）,2007,19(2):234-237. 被引量：11

共引文献168

1吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
2梁华清.基于Web的远程教学系统的设计[J].中国科教创新导刊,2007(12):95-96. 被引量：1
3靳风荣,郑雪峰.Web日志挖掘的预处理过程及算法[J].微型电脑应用,2004,20(6):44-45. 被引量：5
4柳胜国.Web日志挖掘数据预处理方法研究[J].现代图书情报技术,2004(12):55-57. 被引量：2
5焦文彬,及俊川,丛培民.基于DTS的Web日志分析系统[J].微型机与应用,2004,23(12):32-33. 被引量：3
6党伟升,张力.基于文件服务器日志的测试用例设计[J].计算机工程,2005,31(20):80-81.
7朱月秀.Web日志挖掘的模糊动态聚类算法[J].漳州师范学院学报（自然科学版）,2005,18(4):15-20. 被引量：1
8王利.Web挖掘在个性化学习网站中的应用[J].福建电脑,2006(1):93-94. 被引量：1
9方成效,袁可风.Web日志挖掘的数据预处理研究[J].计算机与现代化,2006(4):79-81. 被引量：12
10周增国,庞有军.Cookie技术在Web日志挖掘预处理中的应用[J].大连大学学报,2006,27(2):59-62. 被引量：4

同被引文献26

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2肖君,彭鑫,赵文耘.基于本体的资源描述和检索方法研究[J].计算机工程与应用,2005,41(36):9-11. 被引量：5
3Hyoung R.Kim,Philip K.Chan.Leaming Implicit User Interest Hierarchy for Context in Personalization[J].Applied Intelligence.2008, 28,153-166.
4R. Cooley,B.Mobasher,and J.Srivastava.Data preparation for mining world wideweb browsing patterns.Journal of Knowledge and Information Systems, 1(1), 1999.
5张云涛等.数据挖掘原理与技术[M].电子工业,2004,04.
6Baeza Yates R, Ribeiro Neto B. Modern Information Retrieval [ M ]. ACM Press, Addison Wesley Longman Limited, 1999.
7Studer R, Benjamins V R, Fensel D. Knowledge engineering: Principles and methods [ J ]. Data and Knowledge En- gineering, 1995,25 (1-2) : 161-197.
8Gruber T R. A translation approach to portable ontologies [ J ]. Knowledge Acquisition, 1993,5 (2) : 199-220.
9胡军,李志露.一种基于Rough本体的语义搜索引擎模型[J].微计算机信息,2008,24(24):180-182. 被引量：4
10杨学兵,孙航.一种基于本体的混合检索方法[J].计算机技术与发展,2009,19(1):125-127. 被引量：2

引证文献4

1李微娜,张启来,冯艳光.基于用户浏览行为的偏好兴趣挖掘推荐研究[J].中国科技博览,2012(33):187-187. 被引量：1
2夏青.数据挖掘中数据预处理的分析[J].科技风,2012(22):55-55.
3何源.基于本体的Web生物信息抽取方法研究[J].计算机与现代化,2013(5):172-175. 被引量：1
4罗维.web日志数据挖掘在服务器安全方面的应用探讨[J].科技创新导报,2017,14(24):155-155.

二级引证文献2

1阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
2周淑娟.基于用户行为驱动的动态兴趣度网课推荐模型[J].信息与电脑,2021,33(8):67-70.

1刘加伶,范军.基于用户访问树的Web日志挖掘数据预处理[J].计算机科学,2009,36(9):154-156. 被引量：8
2牛晓晨.Web日志挖掘中网站拓扑结构获取技术的研究[J].电脑知识与技术,2011,7(1):4-6.
3何玉宝,刘正捷,田晓杰.网站拓扑结构提取技术的研究与应用[J].计算机工程,2006,32(1):157-159. 被引量：2
4孙华文,王大玲,于戈,鲍玉斌,王琢.Web挖掘及个性化推荐中网站拓扑结构的获取、分析及应用[J].小型微型计算机系统,2005,26(7):1225-1228. 被引量：3
5张守成,张玉洁,刘海生.一种改进的EMD硬阈值去噪算法[J].计算机测量与控制,2014,22(11):3659-3661. 被引量：7
6桑军,李丽.基于交友网站的日志挖掘和分析系统[J].数字技术与应用,2010,28(10):142-143.
7赵中堂,马倩.基于聚类算法的彩色照片背景去除技术[J].大众科技,2008,10(5):18-19.
8王学敏,黄方林.一种利用HHT消除信号短时强干扰的方法[J].计算机工程与应用,2012,48(5):131-134. 被引量：1
9顾韵华,王兴,丁妮.Web应用安全扫描系统及关键技术研究[J].计算机工程与设计,2008,29(18):4715-4717. 被引量：7
10张潇云,邹北骥,李玲芝,向遥.自然光图像反射分量分离[J].湖南大学学报（自然科学版）,2015,42(2):126-133. 被引量：3

计算机技术与发展

2011年第1期

浏览历史

内容加载中请稍等...

Web日志挖掘数据预处理优化被引量：4

参考文献12

二级参考文献113

共引文献168

同被引文献26

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Web日志挖掘数据预处理优化 被引量：4

参考文献12

二级参考文献113

共引文献168

同被引文献26

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Web日志挖掘数据预处理优化被引量：4