一种新的Web日志聚类算法的研究与实现被引量：2

Research and Realization on a New Clustering Algorithm for Web Log

下载PDF

导出

摘要传统的用于Web日志聚类的算法大都需要用户指定聚类个数。提出了一种新的自适应聚类算法并对Web日志用户会话进行聚类。该算法基于凝聚聚类思想和划分聚类思想,用初始数据集中每2个会话之间的相异度作为距离的度量,合并距离小于一定阈值的两个会话以产生初始聚类,再根据一定的规则动态地合并距离最小的会话类或会话,算法的结果是产生自然的聚类。最后,通过比较会话聚类的内部距离和类间距离来验证算法的有效性。这种聚类算法的最大优点在于,他能够产生自动的聚类,而不需要用户事先指定需要产生的聚类个数,并且能有效识别孤立点。实验表明,这种聚类能够产生较高质量的聚类效果。 In most Web log clustering methods,the number of clusters is predefined and the clusters are highly dependent on the initial identification of elements that represent the clusters well. In this paper, we advance an adaptive clustering algo- rithm and use it on clustering user - sessions from Web log. The algorithm is based on agglomeration and division,which uses degree of dissimilitude as the distance between two user - sessions, merges two clusters or one session and a cluster according to some rules dynamically and produces natural clusters finally. The algorithm proves to be effective through comparing the average inner distance of a cluster and outer distances among clusters. The advantages of algorithm are that it can cluster without regard to the initial number of clusters and can identify outliers effectively.

作者王羽婷徐维祥张翼李华华

机构地区北京交通大学交通运输学院

出处《现代电子技术》 2007年第24期139-142,共4页 Modern Electronics Technique

关键词相异度凝聚聚类算法自适应聚类算法用户会话 degree of dissimilitude agglomerative clustering adaptive clustering user session

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Sumit Sen,Rajesh N,Dav C. Agglomerative Model for Fuzzy Relational Clustering (FRC)[C]. Fuzzy Information Processing Society. 2000. NAFIPS. 19th International Conference of the North American,2000:267 -271.
2Hichem Frigui, Raghu Krishnapuram. Competitive Fuzzy Clustering[C]. Fuzzy Information Processing Society. 1996. NAFIPS. 1996 Biennial Conference of the North American, 1996:225 - 228.
3Catledge L D, Pitkow J E. Characterizing Browsing Strategies in the World - Wide Web[J]. Computer Networks and ISDN Systems,1995,27(6) :1 065 - 1 073.
4Anupam Joshi, Karuna Joshi. On Mining Web Access Logs [C]. Proc. SIGMOD 2000 Workshop on Research Issues in Data Mining and Knowledge Discovery. Dallas, 2000.
5David Hand，Heikki Mannila，Padhraic Smyth．数据挖掘原理[M].北京：机械工业出版2003．
6Nasraoui O,Frigui H,Joshi A. Mining Web Access Logs Using Relational Competitive Fuzzy Clustering[C]. Proc 8th Int'l Fuzzy Systems Association World Congress, 1999.
7http://www.cs.washington.edu/ai/adaptivedata2/? M=A.

共引文献27

1吴志勇,戴曰章,鞠传香.数据挖掘在电信客户流失中的应用[J].山东理工大学学报（自然科学版）,2007,21(5):28-31. 被引量：2
2王付山.关联规则挖掘技术在商场中的应用[J].商场现代化,2008(4):40-41. 被引量：1
3黄晓晴,唐超洋.电网安全监督管理信息系统的开发与应用[J].广西电力,2008,31(1):29-32. 被引量：3
4刘晓霞.数据挖掘技术在高校教学中的应用[J].现代计算机,2008,14(6):115-116. 被引量：16
5刘永红,李惠君.基于模糊关联规则在电子商务数据挖掘中的研究[J].物流科技,2009,32(1):40-42.
6刘海涛,元昌安,刘海龙,李桂来.数据挖掘建模研究[J].电脑编程技巧与维护,2009(6):45-47. 被引量：1
7张敏情,张玉梅.基于数据挖掘的分布式入侵检测算法[J].武警工程学院学报,2009,25(2):42-45.
8屈爱平.遗传算法在商场数据库中的应用[J].长江大学学报（自科版）（上旬）,2009,6(01X):121-122.
9魏鲁霞.数据挖掘技术在药品疗效上的应用[J].医学信息学杂志,2010,31(4):40-43. 被引量：4
10袁溪.数据挖掘技术及其应用[J].科技资讯,2010,8(10):22-22. 被引量：3

同被引文献30

1李颖基,彭宏,郑启伦.基于用户任务级的Web日志聚类[J].小型微型计算机系统,2004,25(9):1620-1623. 被引量：3
2贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：226
3CNNIC.第32次中国互联网络发展状况统计报告[R].2013.
4Zhang Yun-tao,Gong Ling,Wang Yong-cheng.An improved TF-IDF approach for text classification[J]. Journal of Zhejiang University SCIENCE A . 2005 (1)
5ZHONG S,Khoshgoftaar T M,SELIYA N.Clustering-based network intrusion detection. International Journal of Reliability,Quality and Safety Engineering . 2007
6Chi mphlee W,Abdullah A H,Noor M.Unsupervised anomaly detection with unlabeled data using clustering. Postgraduate Annual Research Seminar . 2005
7HANJia-wei,Kamber Micheline.Data mining concepts andtechniques. . 2001
8YUJ X,Yuming Ou,ZHANG C,et al.Identifying in-teresting visitors through Web log classification. Intelligent Systems,IEEE . 2005
9GUAN Y,GHORBANI A A,BELACEL N.Y-means:A clustering method for intrusion detection. CCECE2003Canadian Conference on Electri-cal and Computer Engineering . 2003
10AnupamJoshi,,Karuna Joshi.On mining Web access Logs. Proc.SIGMOD2000Workshop on Research Issues in Data Mining and Knowledge Discovery . 2000

引证文献2

1梁晓雪,王锋.基于聚类的日志分析技术综述与展望[J].云南大学学报（自然科学版）,2009,31(S1):52-55. 被引量：6
2任育伟,吕学强,李卓,徐丽萍.搜索日志中热点查询的内容抽取[J].计算机应用与软件,2015,32(12):16-21. 被引量：1

二级引证文献7

1刘国城,王会金.日志视角下信息系统安全审计的模型构建及风险控制[J].山东社会科学,2012(9):147-150. 被引量：3
2姜燕.计算机取证中日志分析技术综述[J].电子设计工程,2013,21(6):62-64. 被引量：3
3杨旸,呼和,李为冲,张垚.一种轻量级运维管理系统的设计和实现[J].数字技术与应用,2018,36(5):172-173.
4王立柱,朱茜.实时日志分析系统在河南气象信息化中的应用[J].气象水文海洋仪器,2018,35(3):65-69. 被引量：2
5卢杰骅.基于数据挖掘的网络安全审计技术研究[J].电脑知识与技术（过刊）,2011,17(12X):9050-9051. 被引量：2
6周平,马斌,韩冰,苏宇晨.基于大数据平台的日志分析预警技术研究[J].电脑知识与技术,2016,12(11Z):266-268. 被引量：11
7曾怡.基于大数据平台的自动化运维及监控技术研究[J].科技创新导报,2018,15(25):1-2. 被引量：5

1唐燕雯.一种基于K-means的自适应聚类算法的研究[J].科技致富向导,2012(2):143-143. 被引量：1
2刘紫燕,祁佳.层次聚类算法的实时图像边缘检测及FPGA实现[J].红外技术,2014,36(1):53-57. 被引量：5
3李雪琼,李峰.入侵检测系统中基于凝聚聚类算法的训练样本集的构造[J].计算机工程与科学,2009,31(6):27-29. 被引量：1
4王宇,李晓利.核k-凝聚聚类算法[J].大连理工大学学报,2007,47(5):763-766. 被引量：7
5肖红光,陈颖慧,巫小蓉.基于结构树的高维数据流子空间自适应聚类算法[J].小型微型计算机系统,2016,37(10):2206-2211. 被引量：4
6李丽娟,李少东.自适应聚类算法在DDoS攻击检测中的应用[J].计算机工程与应用,2012,48(2):86-89. 被引量：4
7成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：46
8凌海峰,曹荣涛.基于混合蚁群算法的Web用户会话聚类[J].计算机工程与应用,2013,49(22):136-138. 被引量：2
9王小妮.具有资源约束的自适应聚类算法[J].计算机工程与设计,2015,36(1):246-249.
10金松河,钱慎一,张素智.基于Web日志的高精度聚类算法[J].河南科技大学学报（自然科学版）,2006,27(2):49-51. 被引量：4

现代电子技术

2007年第24期

浏览历史

内容加载中请稍等...

一种新的Web日志聚类算法的研究与实现被引量：2

参考文献7

共引文献27

同被引文献30

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种新的Web日志聚类算法的研究与实现 被引量：2

参考文献7

共引文献27

同被引文献30

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种新的Web日志聚类算法的研究与实现被引量：2