基于Web日志挖掘的Web文档聚类被引量：5

Web document clustering based on web-log mining

下载PDF

导出

摘要 Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足。k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类。试验结果表明,该改进算法提高了聚类效率。 Web log mining is one of the web mining. The process of the web log mining and the k-means algorithms are introduced. And the shortage of the k-means algorithm is analyzed. The k-means algorithm needs to compute the distance between every data object and the center of the clusters, which lowers the efficiency. To this problem, an enhanced algorithm of the k-means is put forward, which avoids computing the distance between every data object and the center of the clusters. Web document clustering is implemented with two algorithms and it is shown that the enhanced algorithm improves the clustering efficiency.

作者高哲魏海平王福威赵晓碧

机构地区辽宁石油化工大学计算机与通信工程学院

出处《计算机工程与设计》 CSCD 北大核心 2008年第18期4708-4710,共3页 Computer Engineering and Design

关键词日志挖掘 WEB日志 K-MEANS 文档聚类日志预处理 web log mining web log k-means web document clustering data preprocessing

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1Robert Cooley, Bamshad Mobasher, Jaideep Srivastava. Data preparation for mining world web browsing pattems[J].Knowledge and information Systems, 1999.
2Baglioni M,Ferrara U,Romei A,et al.Preproeessing and mining web log data for web personalization [EB/OL]. http://www. di.unipi.it/-ruggieri/Papers/aiia2003.pdf,2003.
3Liu Haibin,Vlado Kes.Combined mining of web server logs and web contents for classifying user navigation patterns and predicting users' future requests[J].Data and Knowledge Engineering, 2006(7):307-309.
4郭崇慧,田凤占.数据挖掘教程[M].北京:清华大学出版社,2006:179-180.
5FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
6陈正鸣.基于遗传算法的k-means聚类方法的研究[D].南京:河南大学,2007:56-57.
7苏中,马少平,杨强,张宏江.基于Web-Log Mining的Web文档聚类[J].软件学报,2002,13(1):99-104. 被引量：29

二级参考文献6

1Ng, R., Han, J. Efficient and effective clustering methods for data mining. In: Bocca, J.B., Jarke, M., Zaniolo, C., eds. Proceedings of the 1994 International Conference on Very Large Data Bases (VLDB'94). Santiago, Chile: Morgan Kaufmann, 1994. 144～155.
2Ester, M., Kriegal, H.P, Sander, J. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Simoudis, Evangelos, Han, Jia-wei, Fayyad, U.M., eds. KDD'96--Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. AAAI Press, 1996.
3Kaufman, L., Rousseeuw, P. J. Finding Groups in Data: an Introduction to Cluster Analysis. John Wiley & Sons, 1990.
4Sibson, R. SLINK: an optimally efficient algorithm for the single-link cluster method. The Computer Journal, 1973,16(1):20～34.
5Bouguettaya, A. On-Line clustering. IEEE Transactions on Knowledge and Data Engineering. 1996,8(2):333～339.
6Voorhees, E.M. Implementing agglomerative hierarchical clustering algorithms for use in document retrieval. Information Processing and Management, 1986,22:465～476.

共引文献61

1朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
2张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
3杜威,邹先霞,魏长华.基于OLAP的Web日志挖掘的研究与探讨[J].计算机与现代化,2004(12):106-109. 被引量：3
4郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
5王勇,吕扬生.DICOM医学图像扩展模型的研究[J].中国生物医学工程学报,2005,24(1):89-92. 被引量：3
6李伟,黄颖.文本聚类算法的比较[J].科技情报开发与经济,2006,16(22):234-236. 被引量：4
7龚静,李英杰.文本聚类算法的分析与比较[J].湖南环境生物职业技术学院学报,2006,12(3):283-286. 被引量：2
8宋江春,沈钧毅.一种新的Web用户群体和URL聚类算法的研究[J].控制与决策,2007,22(3):284-288. 被引量：11
9洪宇,张宇,刘挺,郑伟,龚诚,李生.基于层次聚类的自适应信息过滤学习算法[J].中文信息学报,2007,21(3):47-53.
10索红光,杨涛.基于互信息的Web文档聚类方法[J].广西师范大学学报（自然科学版）,2007,25(2):131-134. 被引量：3

同被引文献82

1张福安.电子商务与ERP的整合应用研究[J].合肥工业大学学报（自然科学版）,2003,26(z1):835-837. 被引量：5
2王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
3丁涛.电子商务下增值税机制探析[J].财会通讯（中）,2011(11):32-34. 被引量：4
4孙晓燕.我国在国际贸易中应用电子商务存在的问题及对策[J].哈尔滨职业技术学院学报,2008(6):21-22. 被引量：18
5江洁星.论电子商务对税收的影响[J].当代经济,2012,29(20):82-83. 被引量：1
6冯志新,钟诚.基于FP-tree的最大频繁模式挖掘算法[J].计算机工程,2004,30(11):123-124. 被引量：18
7刘志学,付国庆,许泽勇.物流管理与供应链管理的比较[J].计算机集成制造系统,2004,10(F12):126-130. 被引量：18
8张俊霞.旅游网站有效性的定量评价方法[J].中国地质大学学报（社会科学版）,2001,1(4):30-33. 被引量：33
9朱鸿林.我国中小企业信息化建设的现状与对策[J].现代管理科学,2005(4):75-76. 被引量：13
10詹兆宗.旅行社基于互联网的产品策略研究[J].旅游学刊,2005,20(2):37-41. 被引量：30

引证文献5

1周金枝,刘旸,于辰云.基于Web日志的数据挖掘的研究及应用[J].科学技术与工程,2010,10(11):2762-2766. 被引量：1
2陈元中.基于聚类的OLAP多维分析查询推荐方法研究[J].计算机工程与设计,2010,31(15):3503-3505. 被引量：2
3肖宏飞.Web日志挖掘在个性化网站中的应用初探[J].滁州职业技术学院学报,2011,10(1):65-66. 被引量：1
4邓绯.基于代理的P2P网络流量监控与调整算法[J].齐齐哈尔大学学报（自然科学版）,2013,29(4):23-27. 被引量：1
5电子商务：[J].销售与市场（商学院）,2014(2):14-14.

二级引证文献5

1朱亚兴.基于OLAP技术的污染源在线监测数据分析系统[J].微型机与应用,2012,31(6):4-6.
2谭文武.Web日志挖掘技术的应用研究[J].无线互联科技,2012,9(12):158-158.
3应毅,任凯,曹阳.基于改进的MapReduce模型的Web挖掘[J].科学技术与工程,2013,21(5):1205-1209. 被引量：10
4邓绯,张勇,唐权,陈印,骆文亮,赵萍.基于滑动时间窗的置信区间流量异常检测算法研究[J].重庆三峡学院学报,2013,29(3):46-48. 被引量：1
5欧阳小星,张蓉.信息化在医保控费中的应用[J].中国管理信息化,2016,19(22):135-136. 被引量：3

1孙金华,谢彦麒.Web使用挖掘日志预处理算法设计[J].现代计算机,2009,15(8):7-10. 被引量：1
2温蕴,孙亚,曹晓霞.远程教育网站日志预处理及算法描述[J].电脑知识与技术,2009,5(4):2588-2590.
3钟珞,张开松,李三得,夏红霞.Web使用挖掘研究及实现[J].微机发展,2005,15(1):33-35. 被引量：8
4王海涛.工作流模型结构化挖掘方法研究[J].计算机工程与设计,2007,28(17):4223-4228. 被引量：1
5刘必雄,许榕生.基于XML的综合日志预处理模型设计[J].莆田学院学报,2007,14(5):65-69. 被引量：2
6杨富华.网络日志预处理中优化的会话识别算法[J].计算机仿真,2011,28(4):123-125. 被引量：4
7颜斯哲,王国军.浅析安全操作平台中日志的过滤与范化[J].企业技术开发,2009,28(5):135-137. 被引量：1
8李伟伟,张涛,马媛媛,周诚.电力业务系统海量SQL访问日志预处理方法[J].电信科学,2015,31(S1):120-124. 被引量：1
9张琦琪,陈俊杰.结合站点拓扑结构的页面视图分析[J].太原理工大学学报,2004,35(4):414-417.
10张琦琪.一个改进了的用途数据预处理模型[J].上海第二工业大学学报,2005,22(4):18-22.

计算机工程与设计

2008年第18期

浏览历史

内容加载中请稍等...

基于Web日志挖掘的Web文档聚类被引量：5

参考文献7

二级参考文献6

共引文献61

同被引文献82

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Web日志挖掘的Web文档聚类 被引量：5

参考文献7

二级参考文献6

共引文献61

同被引文献82

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Web日志挖掘的Web文档聚类被引量：5