基于网页特征的会话识别方法被引量：1

Method of sessions' identification based on feature of web pages

下载PDF

导出

摘要提出一种利用网页特征进行会话识别的方法。通过分析网页本身的特征,计算站点中所有网页的特征向量。根据这些特征向量,可以计算任意网页之间的相关程度。按照用户请求页面在日志中的时间顺序,可以得到日志中所有直接相邻的页面记录的关联程度曲线。通过设定一个阈值,在关联程度曲线中波动较大的位置形成会话边界。将关联程度大的页面分类到一个会话中,从而完成会话识别。 In this paper, a method of sessions＇ identification based on the feature of web pages is proposed. After the features of web pages are analysed, the feature vectors of all web pages in a website are computed. Based on the feature vectors, the relativity between any two web pages could be computed. According to the time sequence of user＇s request pages in the web log, a curve of relativity between any two direct neighbor web pages could be found. After a threshold is set up, sessions＇ border would be found at the position where the fluctuation are great in the curve of relativity. After the high relative web pages are put into one sesstion, sessions＇ identification is completed.

作者陈子军王鑫昱

机构地区燕山大学信息科学与工程学院

出处《燕山大学学报》 CAS 2008年第1期10-13,共4页 Journal of Yanshan University

关键词 WEB日志挖掘数据预处理会话识别 web log mining data preprocessing sessions＇ identification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Federico Michele Facca, Pier Luca Lanzi. Mining interesting knowledge from weblogs: a survey [J]. Data and Knowledge Engineering, 2005,53 (3): 225-241.
2Catledge L, Pitkow J. Characterizing browsing strategies in the world wide web [J]. Computer Networks and ISDN Systems, 1995,27 (6): 1065-1073.
3Cooley R, Mobasher B, Srivastava J. Data preparation for mining world wide web browsing patterns [J]. Journal of Knowledge and Information Systems, 1999,1 (1): 5-32.
4Chen M S, Park J S, Yu P S. Efficient data mining for path traversal patterns [J]. IEEE Transactions on Knowledge and Data Engineering, 1998,10 (2): 209-221.
5江宝林,申展,张川,葛家翔,胡运发.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32. 被引量：9
6李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
7Salton D, Bukley C. Term-weighting approaches in automatic text retrieval [J]. Information Processing and Management, 1988,24 (5): 513-523.

二级参考文献6

1Cooley R, Tan P N, Srivastava J. Websift:The Web Site Information Filter System. In Proceedings of the 1999 KDD Workshop on Web Mining, San Diego, CA: Springer-Verlag. 1999
2Cooley R, Mobasher B, Srivastava J. Data Preparation for Mining World Wide Web Browsing Patterns. Journal of Knowledge and Information systems, 1999, 1(1): 5-32
3Salton G, Buckley C. Term-weighting Approaches in Automatic Text Retrieval. Information Processing &Management, 1988,24(5): 513-523
4Selim S Z, Ismail M A. K-means-type Algorithms: A Generalized Convergence Teheorem and Characterization of Local Optimality. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1984,(1):81
5李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
6李晓黎,史忠植.用数据采掘方法获取汉语词性标注规则[J].计算机研究与发展,2000,37(12):1409-1414. 被引量：10

共引文献115

1王世卫,李爱国.报税欺诈检测研究[J].仪器仪表学报,2005,26(z1):900-901.
2童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
3郑松峰,徐维朴,刘维湘,郑南宁.基于无监督聚类的约简支撑向量机[J].计算机工程与应用,2004,40(14):74-76. 被引量：1
4贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
5江宝林,申展,张川,葛家翔,胡运发.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32. 被引量：9
6张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
7包骏杰,马燕.一种基于互联网智能元搜索引擎的研究[J].计算机科学,2004,31(6):103-105. 被引量：1
8黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
9王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2
10梁春燕,郭力,夏诏杰,杨章远.网络搜索引擎的性能优化策略和相关技术[J].计算机工程与应用,2004,40(36):179-182. 被引量：5

同被引文献5

1赵红玲,宋瀚涛,牛振东,刘桂山.Web日志挖掘中数据预处理的研究[J].计算机应用研究,2005,22(6):67-69. 被引量：20
2朱孝宇,王理冬,汪光阳.一种改进的Apriori挖掘关联规则算法[J].计算机技术与发展,2006,16(12):89-90. 被引量：11
3冯平,黄名选.由频繁项集生成关联规则的算法设计和实现[J].广西工学院学报,2007,18(1):56-59. 被引量：4
4杨怡玲,管旭东,陆丽娜,尤晋元.一个简单的Web日志挖掘系统[J].上海交通大学学报,2000,34(7):932-935. 被引量：22
5王卉,李庆华,马传香,李肯立.频繁模式挖掘中的剪枝策略[J].计算机工程与科学,2003,25(4):65-68. 被引量：5

引证文献1

1魏榴花.基于Web日志的用户访问推荐系统的研究与实现[J].电脑知识与技术（过刊）,2010,0(30):8510-8512.

1石淼磊,苏璞睿,冯登国.Web浏览器历史数据自动分类取证系统[J].计算机应用,2006,26(10):2427-2429. 被引量：3
2吕琳,刘培玉.一种基于C4.5决策树算法的Web页面分类算法[J].山东师范大学学报（自然科学版）,2015,30(2):20-23. 被引量：1
3成卫青,于静,杨晶,杨龙.基于页面分类的Web信息抽取方法研究[J].计算机技术与发展,2013,23(1):54-58. 被引量：5
4费玉莲,姜波,李渊.面向异步通信机制的网页分类研究[J].计算机应用,2008,28(2):545-548.
5王姝华,曹阳,李佐,蔡士杰.连通区的页面分割与分类方法[J].计算机辅助设计与图形学学报,2002,14(1):17-20. 被引量：3
6陆桂明,杨战胜,裴阳洁.模糊聚类分析在Web页面分类中的应用研究[J].计算机与数字工程,2007,35(4):100-101. 被引量：4
7吕韩飞,王申康.一种重要性与时新性结合的网页更新策略[J].计算机应用研究,2005,22(11):212-213. 被引量：4
8汤亚玲,秦锋.Web使用挖掘下的Web页面层次分类技术研究[J].情报学报,2008,27(3):351-356. 被引量：2
9刘琦,林怀忠,陈纯.模糊聚类的最大树算法在Web页面分类中的应用[J].计算机应用研究,2004,21(11):286-287. 被引量：12
10蔡巍,王英林,尹中航.基于网上新闻语料的Web页面自动分类研究[J].情报科学,2010,28(1):124-127. 被引量：3

燕山大学学报

2008年第1期

浏览历史

内容加载中请稍等...

基于网页特征的会话识别方法被引量：1

参考文献7

二级参考文献6

共引文献115

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页特征的会话识别方法 被引量：1

参考文献7

二级参考文献6

共引文献115

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网页特征的会话识别方法被引量：1