Web日志会话的个性化识别方法的研究被引量：7

Research on method for session identification in Web log mining

下载PDF

导出

摘要会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。 Session identification is an important step in Web log mining.Compared with the traditional static threshold methods,multi-parameters based dynamic threshold improvement is carried out.Its parameters contain the content of Web page,downloading time,etc,and it produces an individual threshold for different user.In this improvement,the Web log is divided into session at point where the access interval is between maximum threshold and minimal threshold.The threshold is adjusted by the page weightness based on site’s structure,normal read speed based on page contents and begin read time based on download time for different users.Compared with the traditional method that defines an uniform threshold for all Web pages and other methods that define different threshold for each Web page,experimentally,the approach presented can decide the access time threshold more accurately.It is more reasonable and effective.

作者董志锋陈俊杰付裕峰

机构地区太原理工大学计算机与软件学院山西省网络管理中心系统部

出处《计算机工程与应用》 CSCD 北大核心 2008年第8期179-182,共4页 Computer Engineering and Applications

基金山西省自然科学基金( the Natural Science Foundation of Shanxi Province of China under Grant No.2006011030, No.2007011050)

关键词 WEB挖掘会话识别预处理阈值 Web mining session data preprocessing threshold

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
2Yang Qiang,Zhang Hai-ning,Li Tian-yi.Mining Web logs for prediction models in WWW caching and perfecting[C]//The Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD'01.San Francisco:ACM SIGKDD,2001.
3Mikroyannidis A,Theodoulidis B.A theoretical framework and an implementation architecture for self adaptive Web sites [C]//Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence ( WI' 04).Beijing: IEEE Press, 2004.
4Berendt B,Mobasher B,Nakagawa M,et al.The impact of site structure and user environment on session reconstruction in Web usage analysis[C]//Proceedings of the 4th WebKDD 2002 Workshop at the ACM2SIGKDD Conference on Knowledge Discovery in Database.Edmonton,Alberta:ACM SIGKDD,2002.
5Spiliopoulou M,Mobasher B,Berendt B,et al.A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J].Informs Journal of Computing,Special Issue on Mining Web Based Data for E-Business Applications,2003,15(2): 171-190.
6Chen M S,Park J S,Yu P S.Data mining for path traversal patterns in a Web environment[C]//Proceedings of the 16th International Conference on Distributed Compute System.Hong Kong: IEEE Press, 1996:385-392.
7Zaiane O R,Xin M,Han J.Discovering Web access patterns and trends by applying OLAP and data mining technology on Web logs[C]//Proc Advances in Digital Libraries Conf,ADL'98.Santa Barbara, CA : IEEE Press, 1998 : 19-29.
8殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法[J].华中科技大学学报（自然科学版）,2006,34(7):33-35. 被引量：27
9He D,Goker &Detecting session boundaries from Web user logs[C]// Proceedings of the 22nd Annual Colloquium of IR Research, Cambridge, UK, 2000 : 57-66.
10Hallam-Baker P M,Behlendorf B.Extended log file format[EB/OL]. http : //www. w3.org/TR/WD-logfile-960221 .html.

二级参考文献12

1Han J，Data Mining:Concepts and Techniques，2000年
2Wang K，Proc of VLDB'97，1999年，363页
3Zaiane O R，Proc Int Workshop Web Information and Data Management（WIDM'98），1998年，9页
4Mobasher B，Tech Rep:TR96 0 5 0，1996年
5Zaiane O R，Proc KDD'95，1995年，331页
6Yang Qiang, Zhang Haining, Li Tianyi. Mining Web logs for prediction models in WWW caching and prefecting[C]//The Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD'01. San Francisco: ACM SIGKDD, 2001.
7Mikroyannidis A, Theodoulidis B. A theoretical framework and an implementation architecture for self adaptive Web sites[C]// Prodeedings of the IEEE/WIC/ACM International Conference on Web Intelligence(WI'04), Beijing: IEEE Press, 2004.
8Berendt B, Mobasher B, Nakagawa M, et al. The impact of site structure and user environment on session reconstruction in Web usage analysis[C]// Proceedings of the 4th WebKDD 2002 Workshop at the ACM-SIGKDD Conference on Knowledge Discovery in Database. Edmonton, Alberta: ACM SIGKDD,2002.
9Spiliopoulou M, Mobasher B, Berendt B, et al. A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J]. Informs Journal of Computing, Special Issue on Mining Web-Based Data for E-Business Applications, 2003, 15(2): 171-190
10Chen M S, Park J S, Yu P S. Data mining for path traversal patterns in a Web environment [C]// Proceedings of the 16th International Conference on Distributed Compute System. Hong Kong:IEEE Press,1996: 385-392.

共引文献373

1杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
4董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
5杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
6张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
7万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
8许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
9王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
10李慧.数据挖掘技术探讨及其基于web的应用研究[J].硅谷,2008,1(22):71-71.

同被引文献48

1张慧颖,梁伟.Web使用挖掘中的数据预处理算法研究[J].微型机与应用,2004,23(8):25-28. 被引量：5
2李习彬.熵－信息理论与系统工程方法论的有效性分析[J].系统工程理论与实践,1994,14(2):37-42. 被引量：82
3欧阳一鸣,汪曦东,郭骏,刘红樱.Web使用挖掘数据预处理中的会话构造[J].计算机工程与应用,2005,41(25):148-151. 被引量：11
4付关友,朱征宇.个性化服务中基于行为分析的用户兴趣建模[J].计算机工程与科学,2005,27(12):76-78. 被引量：27
5殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法[J].华中科技大学学报（自然科学版）,2006,34(7):33-35. 被引量：27
6李超锋,卢炎生.基于URL结构和访问时间的Web页面访问相似性度量[J].计算机科学,2007,34(4):207-209. 被引量：4
7马瑞民,李向云.Web日志挖掘中数据预处理技术的研究[J].计算机工程与设计,2007,28(10):2358-2360. 被引量：19
8王琼,刘珏,徐汀荣.结合Web站点结构的路径补充[J].计算机技术与发展,2007,17(6):120-122. 被引量：2
9李烈彪,张海鹏,周亚峰.Web日志挖掘中数据预处理方法的研究[J].计算机技术与发展,2007,17(7):45-48. 被引量：15
10Han Jiawei,Micheline Kamber.数据挖掘要领与技术[M].范明,孟小峰,译.北京:机械工业出版社,2003.

引证文献7

1霍晓钢.由Web日志确定页面访问时间的方法研究[J].计算机工程与设计,2010,31(10):2416-2418. 被引量：2
2夏秀峰,王宇.一种基于个性化推荐的用户访问路径补全算法[J].计算机应用与软件,2011,28(2):179-183. 被引量：1
3李超,谢坤武,文黎明,向军.一种结合Web内容主题的会话识别及切分方法[J].计算机应用与软件,2011,28(6):167-169. 被引量：2
4阳小兰,钱程,赵海廷.Web日志分析系统研究[J].计算机技术与发展,2011,21(9):211-215. 被引量：5
5王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,48(8):148-151. 被引量：37
6黄宏涛.Web日志挖掘中改进的会话识别方法[J].福建电脑,2014,30(11):181-182.
7李茹,李锐,蒋捷,吴华意.网络地图用户访问会话时空特征分析[J].数据分析与知识发现,2019,3(6):1-11. 被引量：3

二级引证文献50

1卢健,刁雅静.Web日志挖掘中的数据预处理研究[J].江苏科技大学学报（自然科学版）,2012,26(1):81-85. 被引量：4
2皮国强,刘韬.基于Web挖掘的Web服务器入侵检测研究[J].计算机时代,2012(4):41-42.
3罗福强,熊永福.基于分层的Web系统的性能优化研究与探讨[J].计算机技术与发展,2012,22(11):85-88. 被引量：6
4张晓滨,庞海燕.基于兴趣度变化的社区网站用户性格相似度计算[J].计算机系统应用,2013,22(2):112-115.
5李德玉,翁小奎,李艳红.基于用户兴趣域的混合数据聚类标签算法[J].山西大学学报（自然科学版）,2013,36(2):180-186. 被引量：1
6陈玉峰,张红燕,敬松,谢元瑰,隆珂.基于层次结构的农民工就业特征模型研究[J].中国农学通报,2013,29(11):101-106. 被引量：2
7范惊,章程.基于静态分析的高精度程序日志解析技术[J].计算机工程,2013,39(10):68-71. 被引量：1
8张宏亮,王海燕.基于改进用户浏览行为个性化搜索引擎系统研究[J].软件导刊,2013,12(10):89-91. 被引量：1
9许国迎,张宁.基于网页浏览的用户兴趣度研究[J].上海理工大学学报,2013,35(5):420-424.
10李超,谢坤武.用户搜索体验质量及搜索结果排序[J].计算机工程与应用,2014,50(1):24-28.

1殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法[J].华中科技大学学报（自然科学版）,2006,34(7):33-35. 被引量：27
2黄庆炬,吴珊.Web日志挖掘中一种改进的会话识别方法[J].湖北工业大学学报,2008,23(4):10-13.
3雷亮,李善君,彭军.改进的遗传算法在Web使用挖掘中的应用[J].计算机工程与应用,2009,45(8):135-137. 被引量：2
4张玮,牛正浩,史慧玲,孙萌,唐绍炬.多目标优化的云计算虚拟集群动态调整方法[J].济南大学学报（自然科学版）,2014,28(5):376-381. 被引量：3
5董本清,张永,徐斌昕.B/S架构下基于会话指纹的同源重放攻击应对方案研究[J].湖北师范学院学报（自然科学版）,2015,35(2):6-13. 被引量：2
6王永辉.RBF神经网络LM算法的改进[J].电子测试,2016,27(6):38-39. 被引量：2
7朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,39(2):111-114. 被引量：10
8曾现峰,李波,侯春,崔东艳.基于改进微粒群优化的PID控制器参数整定[J].自动化技术与应用,2012,31(12):24-27. 被引量：3
9戴智丽,王鑫昱.一种基于动态时间阈值的会话识别方法[J].计算机应用与软件,2010,27(2):244-246. 被引量：6
10杨冲.巧用浏览器无缝读文章[J].电脑爱好者,2014,0(16):46-47.

计算机工程与应用

2008年第8期

浏览历史

内容加载中请稍等...

Web日志会话的个性化识别方法的研究被引量：7

参考文献10

二级参考文献12

共引文献373

同被引文献48

引证文献7

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

Web日志会话的个性化识别方法的研究 被引量：7

参考文献10

二级参考文献12

共引文献373

同被引文献48

引证文献7

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

Web日志会话的个性化识别方法的研究被引量：7