Web日志挖掘中的数据预处理研究——Frame页面过滤算法改进
摘要
Web数据挖掘是分析网络应用的主要手段。其数据源一般是网络服务器日志,然而日志记录的是杂乱的、不完整的、不准确的并且是非结构化的数据,必须进行数据预处理。本文将预处理过程分为4个阶段:数据净化、用户识别、会话识别、路径补充,并提出了一个高效的Web数据挖掘预处理结构和相应的算法。
出处
《福建电脑》
2007年第10期109-110,共2页
Journal of Fujian Computer
参考文献4
-
1朱炜,王超,李俊,潘金贵.Web超链分析算法研究[J].计算机科学,2003,30(9):89-93. 被引量:20
-
2李剑,金蓓弘.Web链接结构信息研究综述[J].计算机科学,2003,30(4):95-98. 被引量:5
-
3邓英,李明.Web数据挖掘技术及工具研究[J].计算机工程与应用,2001,37(20):92-94. 被引量:32
-
4高毅龙.Web服务器访问日志的保存方法及其实现[J].计算机工程,1999,25(9):47-48. 被引量:1
二级参考文献53
-
1(美)Wynkoops 康博创作室(译).SQL Server6.5开发使用手册[M].北京:机械工业出版社,1998,5..
-
2Botafogo R A, Shneiderman B. Identifying Aggregates in Hypertext Structures. In:Third ACM Conf. on HyperText(1991.San Antonio, TX), ACM, 1991.
-
3Page L, Brin S, Motwani R, Winograd T. The PageRank Citation Ranking: Bringing Order to the Web, Manuseript in progress,1998.
-
4Kleinberg. Authoritative sources in a hyperlinked environment. In:Proc. of 9th ACM-SIAM Symposium on Discrete Algorithms,1997.
-
5Lempel R,Moran S. The Stochastic Approach for Link-Structure Analysis (SALSA) and the TKC Effect. In :Proe. of the 9th Intl.World Wide Web Conf. 2000.
-
6Gallager R G. Discrete Stochastic Processes, Kluwer Academic Publishers, 1996.
-
7Borodin A, Roberts G O, Rosenthal J S, Tsaparas P. Finding Authorities and Hubs From Link Structure on the World Wide Web. In:Proc. of the 9th Intl. World Wide Web Conf. 2000.
-
8Marchiori M. The Quest for Correct Information on the Web:Hyper Search Engines. In: The Sixth Intl. WWW Conf.(WWW97), Santa Clara, USA, 1997.
-
9Mukherjea S, Foley J D. Showing the Context of Nodes in the World Wide Web. In: Proc. of ACM CHI'95 Conf. on Human Factors in Computing Systems, volum 2 of short papers: Web Browsing, 1995.
-
10Pirolli P, Pitkow J, Rao R. Silk from a Sow's Ear:Extracting Usable Structures from the Web. In: Proe. of 1996 Conf. on Human Factors in Computing Systems (CHI96), Vancouver,British Columbia, Canada, 1996.
共引文献54
-
1阎娟.Web使用挖掘技术的研究[J].文教资料,2006(24):151-152. 被引量:1
-
2熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量:1
-
3李新仕.数据挖掘在商务中的应用[J].广西师范学院学报(自然科学版),2004,21(3):69-74. 被引量:2
-
4杨沅钊,吴薇,喻晓莉,杨国才.搜索引擎排名改进算法分析[J].农业网络信息,2005(2):41-43. 被引量:2
-
5单爱民.一种统一开放的互联网信息搜索排序公式的研究[J].现代计算机,2005,11(3):15-18.
-
6蔡虹,叶水生.基于KPS的Web信息抽取[J].计算机与现代化,2005(6):4-6. 被引量:1
-
7耿桦,李媛,朱炜,潘金贵.Web搜索中的数据挖掘技术研究[J].计算机科学,2005,32(4):37-41. 被引量:4
-
8王国森.基于页面链接挖掘的Internet信息资源检索[J].图书情报工作,2005,49(9):89-91.
-
9胡永晖,李向军,孟志青.使用关联规则提高Web访问速度的一种方法[J].西安文理学院学报(自然科学版),2005,8(4):27-30.
-
10单红花.web数据挖掘探讨[J].电脑知识与技术,2006,1(1):5-6. 被引量:4
-
1李和珍.一种改进面向Web日志挖掘的预处理算法[J].舰船电子工程,2003,23(5):45-49.
-
2金花,黄明,梁旭.基于Frame页面过滤的Web日志挖掘中的数据预处理方法[J].大连铁道学院学报,2006,27(2):55-58. 被引量:3
-
3汪瑛.Web日志挖掘中Frame页面过滤的研究与实现[J].福建电脑,2009,25(2):92-92.
-
4陈宝树,党齐民.Web数据挖掘中的数据预处理[J].计算机工程,2002,28(7):125-127. 被引量:25
-
5杨怡玲,管旭东,尤晋元.Web日志挖掘预处理中的Frame页面过滤算法[J].计算机工程,2001,27(2):76-77. 被引量:14
-
6张婧,刘芳.基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究[J].计算机与信息技术,2007(6):7-9. 被引量:1
-
7金松河,钱慎一,张素智.Frame页面过滤算法在Web日志挖掘预处理中的应用[J].云南民族大学学报(自然科学版),2006,15(1):63-65. 被引量:2
-
8庞敏,赵乙国,周海英.改进的基于Web的频繁访问路径挖掘算法[J].测试技术学报,2009,23(3):244-247. 被引量:1